强化关键词检索结果

RubiCap:用于密集图像字幕的 Rubric 引导强化学习

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

密集图像字幕对于视觉语言预训练和文本到图像生成中的跨模式对齐至关重要,但扩展专家质量注释的成本却极其昂贵。虽然通过强大的视觉语言模型 (VLM) 进行合成字幕是一种实用的替代方案,但监督蒸馏通常会产生有限的输出多样性和弱泛化性。强化学习(RL)可以克服这些限制,但迄今为止它的成功主要集中在依赖确定性检查器的可验证领域——这是开放式字幕所不具备的奢侈品。我们……

研究结果显示,生成式人工智能可以放大和强化我们的妄想

Generative AI can amplify and reinforce our delusions, findings show

研究表明,生成式人工智能的阿谀奉承本质正在无意中创造出一种分布式错觉。

Cobra Gold 强化了美国与泰国在印太地区的债券

Cobra Gold Reinforces U.S.-Thai Bonds in Indo-Pacific

从泰国 Cobra Gold 2026 回国的国民警卫队士兵表示,为期两周的密集演习加强了国民警卫队与泰国军方通过国家伙伴计划交流建立的长期关系。

人工智能通过海量数据集增强化学性能

AI Supercharges Chemistry with Massive Dataset

为什么重要:人工智能通过海量数据集增强化学能力,揭示了 ANI-1x 如何利用人工智能改变分子建模。

Cyngn荣获第24项专利,强化通用自治能力

Cyngn Awarded 24th Patent, Strengthening Universal Autonomy Capabilities

Cyngn 获得了第 24 项实时自适应车辆建模技术美国专利,加强了其与车辆无关的自动驾驶的 IP 组合。

印度可能结束 270 亿卢比的大米强化计划

India may end ₹2,700 crore rice fortification programme

由于缺乏延长谷物保质期的技术,分发维生素强化大米的计划可能会停止

穿加重背心可以强化骨骼?确保您正在移动

Wearing a weighted vest to strengthen bones? Make sure you’re moving

根据《老龄化前沿》发表的新研究,在减肥期间穿着加重背心可能有助于老年人保持骨密度,尤其是当他们花更多时间站立和活动时。

美国航空斥资 11 亿美元新建大厅,强化迈阿密枢纽

American Airlines Strengthens Miami Hub With New $1.1 Billion Concourse

美国航空 (AA) 和迈阿密国际机场 (MIA) 宣布了一项价值 11 亿美元的大型航站楼扩建计划,标志着该航空公司最重要的枢纽之一的重大投资。美国航空通过耗资 11 亿美元新建大厅加强迈阿密枢纽的帖子首先出现在 Aviation A2Z 上。

强化学习应用于自动驾驶汽车:Oliver Chang 访谈

Reinforcement learning applied to autonomous vehicles: an interview with Oliver Chang

在本访谈系列中,我们将与 AAAI/SIGAI 博士联盟的一些参与者会面,以了解有关他们研究的更多信息。我们采访了 Oliver Chang,他的研究兴趣涵盖深度强化学习、自动驾驶汽车和可解释的人工智能。我们详细了解了他迄今为止所从事的一些项目,以及是什么吸引了他 [...]

独家:新研究强化了虚拟辅导的案例

Exclusive: New Research Strengthens Case for Virtual Tutoring

当学校为了应对大流行性学习损失而纷纷进行辅导时,专家最初表示他们更喜欢面对面的辅导。但新的研究证明,如果做得好,虚拟模型可以像面对面教学一样有效地推动学生前进。在马萨诸塞州,一年级学生每天在辅导老师的指导下上网 15 分钟 [...]

万斯访问强化了美国推动解决亚美尼亚-阿塞拜疆冲突的政策

Визит Вэнса закрепляет курс США на содействие урегулированию армяно-азербайджанского конфликта

国际危机组织专家约书亚·库塞拉分析了美国副总统此访对高加索和平进程和地缘政治动态的意义。

供应链攻击现在助长了“自我强化”的网络犯罪经济

Supply chain attacks now fuel a 'self-reinforcing' cybercrime economy

研究人员表示,违规行为将身份滥用、SaaS 泄露和勒索软件联系在一起,形成一个级联循环研究人员表示,网络犯罪分子正在将供应链攻击转变为工业规模的操作,将违规行为、凭证盗窃和勒索软件联系起来,形成一个“自我强化”的生态系统。

扩展强化学习中的奖励结构:Tanmay Ambadkar 访谈

Extending the reward structure in reinforcement learning: an interview with Tanmay Ambadkar

在本访谈系列中,我们将与 AAAI/SIGAI 博士联盟的一些参与者会面,以了解有关他们研究的更多信息。 Tanmay Ambadkar 正在研究强化学习中的奖励结构,目标是提供可提供稳健保证且易于部署的通用解决方案。我们采访了 Tanmay 以了解更多信息 [...]

美国利用沙特资助的 F-15 来检验强化型鱼叉反舰导弹变体

U.S. Makes use of Saudi-Funded F-15s to Take a look at Closely Enhanced Harpoon Anti-Ship Missile Variant

美国海军海军航空兵司令部高效地完成了鱼叉 Block II 替换 (HIIU) 过时替换计划的三项精心飞行评估,其中最后一项于 1 月 16 日在加利福尼亚州中国湖海军航空武器站进行。该导弹“展示了针对顾问陆地目标的有利的沿海目标抑制任务,所有检查目标主要根据初步评估而实现。”尽管“鱼叉”导弹于 1977 年首次服役,但最新的变型仍处于生产阶段,并继续受到美国武装部队和许多海外客户的密切依赖,其中最引人注目的是《美国利用沙特资助的 F-15 来测试强化型鱼叉反舰导弹变型》的报道,该文章首先出现在《特种部队新闻》上。

在 GTC 上,Cyngn 通过 NVIDIA Isaac Sim 中的 FMU 集成推进高保真叉车仿真

At GTC, Cyngn Advances High-Fidelity Forklift Simulation Through FMU Integration in NVIDIA Isaac Sim

这一里程碑强化了 Cyngn 的自动叉车计划,包括与 Arauco 的合作,后者此前预订了 100 辆自动叉车。

波兰启动 MEROPS 无人机拦截器操作员培训以加强防空

Poland Launches Operator Training for MEROPS Drone Interceptor to Bolster Air Defense

航空新闻 – 波兰武装部队已正式开始对 AS-3 MEROPS 无人作战系统进行强化训练,以应对日益增长的未经授权的威胁...

mAceReason-Math:为 RLVR 准备的高质量多语言数学问题数据集

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

带可验证奖励的强化学习 (RLVR) 已成功应用于显着提升预训练大型语言模型的能力,特别是在数学和逻辑问题领域。然而,当前的研究和可用的训练数据集仍然以英语为中心。虽然过去已经创建了多语言训练数据和基准,但它们在创建时并未考虑到 RLVR 和当前模型的功能,而且它们的难度通常太低,无法为当前模型提供适当的训练信号。为了解决这一差距,我们提供了 mAceReason-Math,...

多语言推理健身房:程序推理环境的多语言扩展

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

我们提出了多语言推理 Gym,它是 Reasoning Gym(Stojanovski 等人,2025)的扩展,它可以在程序上生成跨 14 种语言的可验证推理问题。我们翻译 94 项任务的模板,并以 10 种语言进行母语验证,并进行有针对性的代码或模板调整,以确保语言的自然性。多语言推理 Gym 保留了原始 Reasoning Gym 中使用的程序生成方法的核心优势,例如几乎无限的问题实例生成和可调整的难度,并且仍然可直接用于强化......