摘要。在自然环境中具有综合性运作的情境意识到的人工药物面临着几个挑战:空间意识,对象效果检测,动态变化和不可预测性。一个关键的挑战是代理商识别和监视与其目标有关的环境要素的能力。我们的研究介绍了一种用于反应性机器人技术的神经符号模块化体系结构。我们的系统结合了在环境和图像处理技术(如光流)上执行对象识别的神经组件,以及符号表示和推理。通过将图像示意性知识整合在本体论结构中,推理系统基于体现认知范式的基础。该本体可用于创建有关感知系统的查询,决定符合的问题,并推断从感知数据中得出的实体功能。推理和图像处理的组合允许代理对正常操作的看法,并发现针对特定相互作用中涉及的对象的一部分的新概念。发现的概念允许机器人自主获取培训数据并只是其符号的感知来识别零件,并通过将搜索重点放在这些相关对象的零件上,从而为更复杂的任务进行计划。我们在模拟世界中演示了我们的方法,在模拟世界中,代理商学会了识别涉及支持关系的对象的一部分。虽然代理商最初没有概念,但通过观察从钩子上悬挂的支持对象的示例,但它学会了认识到建立支持所涉及的部分并能够计划支持关系的建立/破坏。这可以通过系统的方式通过观察来扩展其知识的能力,并说明了将深层推理与动态设置中的反应性机器人技术相结合的潜力。
减轻奖励黑客攻击 - 由于其学习目标中的缺陷或错误的特征,AI系统的表现不佳 - 在构建有能力且一致的模型方面面临着一个关键的挑战。我们表明,我们可以通过使用另一个观察模型的经验链(COT)推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型,例如OpenAI O3-Mini。COT监视可以比单独监视剂的动作和输出更有效,我们进一步发现,比O3-Mini(即GPT-4O)弱的LLM可以有效地监视更强大的模型。因为COT监视器可以有效地检测漏洞,因此自然要问是否可以通过将COT监视器直接纳入代理商的训练目标来抑制这些漏洞。我们表明,将COT监测器集成到强化学习奖励中确实可以在低优化制度中产生更有能力,更一致的代理,但我们发现,通过过多优化,代理商学习了混淆的奖励黑客攻击,将其隐藏在COT中,同时仍然表现出很大的奖励奖励率。由于很难分辨出COTS何时变得混淆,因此可能有必要通过不直接将强大的优化压力直接施加到经营链上来缴纳可监视性税,从而确保COTS保持可监视且可用于检测未对准的行为。
摘要 - 通过人工智能(AI)基于人工智能(AI)基于人工智能的沟通优化仍然是基础的基础。作为第六代(6G)通信网络追求全赛纳里奥的覆盖范围,在复杂的极端环境中的选择提出了未经证实的挑战。这些环境的动态性质,结合物理约束,使AI解决方案(例如深度强化学习(DRL))很难为培训过程获得有效的奖励反馈。但是,许多现有的基于DRL的网络优化研究通过理想化的环境设置忽略了这一挑战。受到生成AI(Genai)(尤其是扩散模型)的强大功能的启发,在捕获复杂的潜在分布时,我们引入了一种新颖的基于扩散推理的奖励成型方案(着装),以实现强大的网络优化。通过对观察到的环境状态进行调节和执行动作,着装利用扩散模型的多步降级过程作为深层推理的一种形式,逐渐完善了潜在表示,以产生有意义的辅助奖励信号,以捕获网络系统模式。此外,连衣裙设计用于与任何DRL框架的无缝集成,允许连衣裙辅助的DRL(装扮得出)即使在极端的网络环境下也可以实现稳定而有效的DRL培训。实验结果表明,穿着的DRL大约达到1。礼服代码可从https://github.com/nice-hku/dress获得。与基线方法相比,在稀疏奖励无线环境中的收敛速度比其原始版本快于其原始版本,并且在多个一般DRL基准环境中的性能得到了显着改进。
人工智能(AI)越来越多地在现代医学中起着至关重要的作用,尤其是在临床决策支持中。本研究比较了两个OpenAI推理模型O3-Mini和O3-Mini-High的性能,以回答从MEDQA-USMLE数据集中得出的900个小儿临床问题。评估的重点是确定其在小儿诊断和治疗决策中的有效性的准确性,响应时间和一致性。结果表明,与O3-Mini相比,O3-Mini-High的精度更高(90.55%比88.3%)和更快的响应时间(64.63秒对71.63秒)。卡方检验证实了这些差异在统计上是显着的(x²= 328.9675,p <0。00001))。错误分析表明,O3-Mini-High纠正了O3-Mini的错误,反之亦然,但两种模型都共享了61个常见错误,这表明训练数据或模型体系结构中的固有局限性。此外,还考虑了模型之间的可访问性差异。虽然在先前的研究中对DeepSeek-R1进行了评估,但提供了不受限制的免费访问,Openai的O3模型具有消息限制,可能会影响其在资源受限环境中的适用性。未来的改进应旨在减少共享错误,在保持效率的同时优化O3-Mini的准确性,并提高O3-Mini-High以提高性能。实施一种利用这两种模型优势的合奏方法可以提供更强大的AI驱动临床决策支持系统,尤其是在时间敏感的儿科场景中,例如紧急护理和新生儿重症监护病房。
对于学术和行业研究,自1980年代以计算机视觉为中心的系统的引入以来,AV技术已经取得了令人难以置信的进步[3]。在这里,本文将为自动驾驶汽车提供一些正式的定义。根据自动化水平,SAE国际自动驾驶汽车定义为六个不同的级别,其中0级没有AU量,并且5级是完全驾驶自动化[6]。尽管AV研究是一个经过充分探索的领域,但仍然没有5级或完全自主的车辆。这在很大程度上是由于计算机视觉系统的缺陷以及需要人类驾驶员存在的更复杂驾驶任务的复杂性。对于安全至关重要的系统,例如AV系统,无法造成小错误。为此,重要的是,AV系统可以根据对周围环境的准确解释做出安全有理的决策。在AV系统的感知端有几种技术,例如光检测和射程(LIDAR)系统和基于摄像机的系统。这些系统与深度学习技术(例如卷积神经网络(CNN))相结合,这些技术用于对传感器数据进行分类[14]。但是,像所有机器学习系统一样,由于噪声,训练数据之外的场景,传感设备的退化以及其他外部因素,误导始终可能发生错误分类。Kahneman在2011年提出的两种系统思维类型[11]。第一个是“系统1”,它是快速,本能和情感思维。因此,AV系统应朝着使用混合AI系统或将深度学习与逻辑推理结合的AI迈进,以帮助减轻完全基于深度学习的方法的失败和缺点。第二个是“系统2”,它是缓慢,有意和逻辑的。对于人类驾驶员,我们在驾驶场景中使用这两个系统。使用System 1 Thinking迅速完成我们周围的对象,并进行较小的驾驶操作。但是,当我们遇到一个不熟悉或危险的情况时,我们使用系统2思考来确定一种安全的方式来驾驶这种情况。在最佳的混合AV系统中,快速系统的1个任务(例如感知和分类)应通过深度学习来处理,而缓慢的系统2任务应通过综合推理来处理。推理系统也可以用于对
强化学习(RL)在使大语言模型(LLMS)与人类偏好相结合并提高其执行复杂任务的能力方面起着至关重要的作用。但是,由于使用多种模型和大量的在线抽样培训(例如PPO),当前的方法要么需要大量的计算资源(例如,PPO),要么被用作匪徒问题(例如,DPO,DRO),通常在多步理学任务中挣扎,例如数学问题和复杂的推理,涉及较长的思想链条。为了克服这些局限性,我们引入了直接的Q-功能优化(DQO),该优化将响应生成过程作为马尔可夫决策过程(MDP),并利用软actor-Critic(SAC)框架来优化语言模型直接参数参数的Q函数。DQO的MDP公式提供了比基于匪徒的方法的结构优势,从而实现了更有效的过程监督。对两个数学解决问题数据集GSM8K和数学的实验结果表明,DQO胜过以前的方法,将其确定为一种有希望的离线强化学习方法,以使语言模型对齐。
过程奖励模型(PRM)已被证明有效地通过杠杆化增加推理时间计算来增强大语模型(LLMS)的数学推理。曾经对他们进行数学数据的主要训练,并且尚未严格研究其对非数学领域的普遍性。回应,这项工作首先表明当前的PRM在其他域中的性能较差。为了解决这一限制,我们引入了VESTAPRM,这是一种使用我们的新数据生成和注释方法生成的合成推理数据的多域PRM。ver-saprm实现了各种领域的一致性增长。例如,在MMLU-PRO类别中,通过加权多数投票的VersAPRM,比大多数投票基线获得了7.9%的表现增长,超过了QWEN2.5-MATH-PRM的增长1.3%。我们通过开放VersaPRM的所有数据,代码和模型来进一步为社区做出贡献。