强化关键词检索结果

SIPRI 将共同举办关于大规模杀伤性武器防扩散和裁军不断变化的挑战的强化在线课程

SIPRI to co-host intensive online course on evolving challenges of WMD non-proliferation and disarmament

SIPRI 和欧盟防扩散与裁军联盟正在呼吁申请参加 2026 年 1 月 20 日至 23 日在线举办的强化在线课程“大规模杀伤性武器防扩散与裁军:不断变化的挑战”。

强化学习手册:基本问题指南

The Reinforcement Learning Handbook: A Guide to Foundational Questions

简化掌握强化学习所需的所有概念《强化学习手册:基础问题指南》一文首先出现在《走向数据科学》上。

AgiBot 首次在工业机器人领域实现强化学习的实际部署

AgiBot Achieves First Real-World Deployment of Reinforcement Learning in Industrial Robotics

将具体的人工智能研究与现实世界的制造系统联系起来

Stellantis 与 Nvidia、Uber 和富士康合作,强化其全球机器人出租车战略

Stellantis partners with Nvidia, Uber and Foxconn to strengthen its global robotaxis strategy

Stellantis 宣布与 Nvidia、Uber Technologies 和富士康展开新合作,探索联合开发和未来部署用于全球机器人出租车服务的 4 级(无人驾驶)自动驾驶汽车。继最近宣布与小马智行签署在欧洲测试自动驾驶汽车的协议后,这一举措标志着 Stellantis 全球机器人出租车战略向前迈出了重要一步。 [...]

Sergey Yarosh:“论坛的主要成果是双边互动整个架构的质的强化”

Сергей Ярош: «Ключевые итоги форума — качественное укрепление всей архитектуры двустороннего взаимодействия»

俄罗斯-委内瑞拉银行“Eurofinance Mosnarbank”行长 - 在首届商业论坛“俄罗斯和委内瑞拉 - 战略合作伙伴”上

强化学习通过自适应揭示基本原理进行推理

RL for Reasoning by Adaptively Revealing Rationales

我们提出,来自部分专家演示的强化学习(RL)不仅仅是一种训练启发式方法,而且是解决复杂序列生成任务的一个有前景的框架。监督微调(SFT)依赖于密集的真实标签,随着序列长度的增长,其成本也越来越高。另一方面,强化学习则面临着稀疏奖励和组合大输出空间的问题。我们通过引入自适应回溯(AdaBack)来解决这个问题,这是一种按样本课程学习算法,在训练期间仅显示目标输出的部分前缀。该...

深度强化学习:0 到 100

Deep Reinforcement Learning: 0 to 100

使用 RL 教机器人驾驶无人机《深度强化学习:0 到 100》一文首先出现在《走向数据科学》上。

Ray Kurzweil ’70 强化了他对技术进步的乐观态度

Ray Kurzweil ’70 reinforces his optimism in tech progress

在获得 Robert A. Muh 奖后,这位技术专家兼作家预示了人工智能的光明未来、寿命方面的突破等等。

IEEE Transactions on Neural Networks and Learning Systems,第 36 卷,第 11 期,2025 年 11 月

IEEE Transactions on Neural Networks and Learning Systems, Volume 36, Issue 11, November 2025

1) 用于少样本图像识别的知识引导语义迁移网络作者:李泽超、唐浩、彭志茂、齐国军、唐金辉页数:19474 - 194882) 基于脑电图情绪识别的可解释性分层动态图卷积网络作者:叶梦清、C. L. Philip陈同张页数:19489 - 195003) 鲁棒旋转等变对比学习作者:白盖瑞、奚伟、洪小鹏、刘新辉、岳阳、赵松文页数:19501 - 195144) 图形互信息最大化的多智能体强化学习作者:丁世飞、杜伟、凌丁,张健,郭莉莉,安博页面:19515 - 195245)大视觉语言模型攻击调查:资源,进展和未来趋势作者:Daizong Liu,Mingyu Yang,Xiaoye Qu,Pan

没有 TD 学习的 RL

RL without TD learning

在这篇文章中,我将介绍一种基于“另类”范式的强化学习 (RL) 算法:分而治之。与传统方法不同,该算法不是基于时间差(TD)学习(存在可扩展性挑战),并且可以很好地扩展到长视野任务。我们可以基于分而治之进行强化学习(RL),而不是时间差(TD)学习。问题设置:离策略RL我们的问题设置是离策略RL。让我们简单回顾一下这意味着什么。强化学习中有两类算法:在策略强化学习和离策略强化学习。同策略 RL 意味着我们只能使用当前策略收集的新数据。换句话说,每次更新策略时我们都必须丢弃旧数据。像 PPO 和 GRPO 这样的算法(以及一般的策略梯度方法)就属于这一类。离策略 RL 意味着我们没有这个限制:我

从培训到转型:如何让学习坚持下去

From Training To Transformation: What It Takes To Make Learning Stick

大多数学习计划的重点是传授知识,但真正的转变只有当人们真正改变他们的思维和工作方式时才会发生。这种转变需要的不仅仅是精彩的内容,还需要背景、强化和领导力。这篇文章首先发表在电子学习行业上。

使用 AI 和 Python 训练人形机器人

Train a Humanoid Robot with AI and Python

使用 MuJoCo 和 Gym 进行 3D 模拟和强化学习使用 AI 和 Python 训练人形机器人一文首先出现在 Towards Data Science 上。

执行命令

Orders to execute

“我们的军队接下来将被命令处决谁?”前空军部长弗兰克·肯德尔在《纽约时报》上问道。摘录:我们的军事领导人接受过评估他们所下命令的合法性的培训。作为职业教育的一部分,尊重和遵守法律的美国价值观在军官的整个职业生涯中得到强化。他们都明白,他们有责任质疑任何他们认为可能非法的命令,并违反任何他们知道非法的命令。在海上先发制人处决涉嫌毒贩的命令以前从未被视为合法行为。 。 。 。

我如何利用停车场将安静的房间变成活跃的教室

How I Used the Parking Lot to Turn Quiet Rooms into Engaged Classrooms

当不同年级的学生共享同一班级时,他们的经验和信心水平会有所不同。低年级学生可能会在高年级学生面前犹豫是否发言,而经验丰富的学生可能会更自由地做出贡献。这些动态很常见,如果不加以解决,可能会强化[...]我如何使用停车场将安静的房间变成活跃的教室的帖子首先出现在教师焦点|高等教育教学与学习。

用头发制成的牙膏可以使牙釉质再生

Toothpaste Made From Hair Could Regrow Tooth Enamel

从人发中提取的牙膏可以为保护和修复受损牙齿提供可持续且临床有效的方法。研究人员发现,由人发制成的牙膏可以提供一种环保且经过临床验证的方法来强化和修复受损的牙齿。一项新的研究表明,角蛋白是一种天然蛋白质,存在于 [...]

用头发制成的牙膏可以使牙釉质再生

Toothpaste Made From Hair Could Regrow Tooth Enamel

从人发中提取的牙膏可以为保护和修复受损牙齿提供可持续且临床有效的方法。研究人员发现,由人发制成的牙膏可以提供一种环保且经过临床验证的方法来强化和修复受损的牙齿。一项新的研究表明,角蛋白是一种天然蛋白质,存在于 [...]

组织“临界点”:细胞如何集体从健康状态转变为疾病状态

Tissue 'tipping points': How cells collectively switch from healthy to disease states

细胞将机械力转化为影响生理过程的信号,例如运动强化骨骼。圣路易斯华盛顿大学和北京清华大学的一个研究小组发现,生物组织也可以经历剧烈的相变,或集体转变,伤口愈合细胞可以从无序的健康状态转变为高度协调的疾病状态,就像水突然冻结成冰一样。

极端高温正在推高西班牙较凉爽的北部地区的房价

Extreme heat is driving up property prices in Spain's cooler northern regions

2025 年 8 月,西班牙遭受了有记录以来最严重的热浪。它强化了这样一个事实:气候变化不再是一个遥远的威胁——它是真实存在的,并且直接影响我们的城市、我们的健康和我们的房地产价格。