摘要 - 在本文中,我们解决了在存在实用车辆建模错误(通常称为模型不匹配)的条件下导航时自动赛车的强化学习(RL)解决方案的性能(RL)解决方案的问题。为了应对这一挑战,我们提出了一种部分端到端算法,该算法可以解除计划和控制任务。在此框架内,RL代理会生成一个轨迹,该轨迹包括路径和速度,随后使用纯粹的追击转向控制器和优势速度控制器对其进行跟踪。相比之下,许多当前基于学习的基于学习的(即增强和模仿学习)算法使用了一种端到端方法,从而深层神经网络将传感器数据直接映射到控制命令。通过利用经典控制器的鲁棒性,我们的部分端到端驾驶算法比标准的端到端算法表现出更好的模型不匹配的鲁棒性。
与人类相比,与聊天机器人的互动中不诚实吗?在人工智能的兴起中,这个问题具有重大的经济影响。我们进行了一项新颖的实验,参与者将与聊天机器人或人类对应物的私人收费随机抽奖报告,并具有不同程度的信号代理。我们发现,在与人类互动但与聊天机器人互动时,信号代理会增加诚实。此外,在代理提示的情况下,参与者对人类的始终如一。我们的结果表明,社会形象的关注和诚实规范在人类互动中起着更为重要的作用。令人惊讶的是,标准在线形式产生的诚实水平与人类到人类聊天的互动相同。这些发现为设计有效的沟通和建立信任的机制提供了宝贵的见解,在数字经济体中,人类与人类互动越来越普遍。
本文提出,一门强大的新学科正在稳步兴起,我们称之为感知工程。它源于一系列涉及创造幻觉的思想,从历史绘画和电影到现代的视频游戏和虚拟现实。感知工程师创造的不是桥梁、飞机或计算机等物理制品,而是虚幻的感知体验。范围定义在任何与物理世界交互的代理上,包括生物有机体(人类、动物)和工程系统(机器人、自主系统)。关键思想是,一个称为生产者的代理会改变环境,目的是改变另一个称为接收者的代理的感知体验。最重要的是,本文基于冯·诺依曼-摩根斯坦的信息概念,介绍了这一过程的精确数学公式,以帮助确定和定义该学科。然后将其应用于工程和生物制剂的案例,并讨论其对虚拟现实、机器人技术甚至社交媒体等现有领域的影响。最后,确定了开放的挑战和参与机会。
本文提出,一门强大的新学科正在稳步兴起,我们称之为感知工程。它源于一系列涉及创造幻觉的思想,从历史绘画和电影到现代视频游戏和虚拟现实。感知工程师创造的不是桥梁、飞机或计算机等物理制品,而是虚幻的感知体验。范围定义在与物理世界交互的任何代理上,包括生物有机体(人类和动物)和工程系统(机器人和自主系统)。关键思想是,一个称为生产者的代理会改变环境,目的是改变另一个称为接收者的代理的感知体验。最重要的是,本文基于冯·诺依曼-摩根斯坦的信息概念,介绍了这一过程的精确数学公式,以帮助确定范围和定义该学科。然后将该公式应用于工程和生物代理的案例,并讨论其对虚拟现实、机器人技术甚至社交媒体等现有领域的影响。最后,确定了开放的挑战和参与机会。
我们描述了一类称为决策导向对话的任务,在这些任务中,大型语言模型 (LM) 等 AI 助手必须通过自然语言与一个或多个人类合作,以帮助他们做出复杂的决策。我们将用户每天面临的决策的三个领域形式化:(1)选择会议论文的审稿人任务,(2)规划某个城市的多步骤行程,(3)为朋友团体协商旅行计划。在每种情况下,AI 助手和用户都具有不同的能力,他们必须将这些能力结合起来才能做出最佳决策:助手可以访问和处理大量信息,而用户则具有系统外部的偏好和约束。对于每个任务,我们构建了一个对话环境,代理会根据他们做出的最终决策的质量获得奖励。我们在自我对弈和与人类合作中对 LM 进行了评估,发现它们与人类助手相比存在不足,尽管对话时间较长,但获得的奖励要低得多。我们强调了模型在决策导向对话中面临的许多挑战,从目标导向行为到推理和优化,并将我们的环境发布为未来工作的试验台。
11 Denoeux,Dubois和Prade(2020)和Caprio等。 (2023)主张在AI中使用不精确的概率。 ilin(2021)考虑了一种决策理论,该理论允许对自主安全系统中应用的歧义厌恶。 众所周知,歧义厌恶导致信息厌恶(Al-Najjar和Weinstein 2009)。 12作为一个匿名裁判指出,如果在替代决定理论之后设计AI代理会产生重大风险,那么也许我们不应该这样做,并学会与那些对风险和歧义不敏感的代理人生活。 虽然这是一个合理的观点,但我们许多人对风险和歧义敏感,可能希望AI代理反映这些偏好。 如果AI代理不能这样做,这是一个巨大的成本。 13,例如,Skyrms(1990),p。 247写道:“证据隐含地假设决策者是贝叶斯人,而且他知道他会充当一个。。 决策者认为,如果他执行实验,他将(i)通过条件化进行更新,并且(ii)选择《后贝叶斯法》。 这意味着Good的定理也将使不确定他们将最大化预期效用的代理商失败。11 Denoeux,Dubois和Prade(2020)和Caprio等。(2023)主张在AI中使用不精确的概率。ilin(2021)考虑了一种决策理论,该理论允许对自主安全系统中应用的歧义厌恶。众所周知,歧义厌恶导致信息厌恶(Al-Najjar和Weinstein 2009)。12作为一个匿名裁判指出,如果在替代决定理论之后设计AI代理会产生重大风险,那么也许我们不应该这样做,并学会与那些对风险和歧义不敏感的代理人生活。虽然这是一个合理的观点,但我们许多人对风险和歧义敏感,可能希望AI代理反映这些偏好。如果AI代理不能这样做,这是一个巨大的成本。13,例如,Skyrms(1990),p。 247写道:“证据隐含地假设决策者是贝叶斯人,而且他知道他会充当一个。。 决策者认为,如果他执行实验,他将(i)通过条件化进行更新,并且(ii)选择《后贝叶斯法》。 这意味着Good的定理也将使不确定他们将最大化预期效用的代理商失败。13,例如,Skyrms(1990),p。 247写道:“证据隐含地假设决策者是贝叶斯人,而且他知道他会充当一个。决策者认为,如果他执行实验,他将(i)通过条件化进行更新,并且(ii)选择《后贝叶斯法》。这意味着Good的定理也将使不确定他们将最大化预期效用的代理商失败。
摘要 - 在现实世界中的代理商,例如自动驾驶的环境中的不确定性,尤其是由于感知不确定性。,尽管在不确定性下,这些算法通常不会了解其环境中当前所包含的不确定性,但强化学习专门用于自主决策。另一方面,感知本身的不确定性估计通常是在感知域中直接评估的,例如,基于摄像机图像的假阳性检测率或校准误差。它用于决定面向目标的动作的用途在很大程度上仍未被研究。在本文中,我们研究了代理人的行为如何受到不确定的看法的影响,以及如果有关此不确定性的信息,该行为如何改变。因此,我们考虑了一项代理任务,在该任务中,代理商在不与其他道路使用者发生碰撞的情况下驾驶路线会得到奖励。对于受控实验,我们通过在告知后者的同时扰动给定代理的感知来引入观察空间中的不确定性。我们的实验表明,以扰动感知建模的不可靠的观察空间会导致代理的防御驾驶行为。此外,当将有关当前不确定性的信息直接添加到观测空间时,代理会适应特定情况,并且一般而言,在同一时间占风险的同时,可以更快地完成其任务。索引术语 - 不确定性量化,增强学习,语义分割
摘要 - 我们相信,基于机器学习的自动事件响应的代理需要处理网络结构的变化。计算机网络是动态的,随着时间的推移,结构自然可以改变。小型网络的再训练代理会花费时间和精力。我们试图通过现有的关系代理学习方法来解决这个问题,其中假定对象之间的关系在问题实例中保持一致。计算机网络的状态表示为关系图,并通过传递神经网络的消息编码。使用编码的消息传递神经网络和代理策略是使用强化学习优化的。我们评估了网络自主体育馆第二个实例的方法进行实验(CAGE 2),这是一种模拟企业网络攻击的网络事件模拟器。我们创建了原始网络的变体,其中测试了不同数量的主机和代理,而无需对其进行其他培训。我们的结果表明,尽管网络发生了变化,但使用关系信息的代理仍能够找到解决方案,并且在某些情况下可以最佳地执行。使用默认向量状态表示的代理性能更好,但需要在每个网络变体上进行特殊培训,这表明专业化和概括之间的权衡。索引术语 - 循环安全,加强学习,图形学习,关系学习,概括
抽象的心肌炎是一种严重的心血管疾病,如果不及时治疗,可能会导致严重的后果。它是由病毒感染触发的,并出现诸如胸痛和心脏功能障碍之类的症状。早期检测对于成功的治疗至关重要,心脏磁共振成像(CMR)是识别这种情况的宝贵工具。但是,由于对比度较低,噪声可变以及每名患者的多个高CMR切片的存在,使用CMR图像检测心肌炎可能具有挑战性。为了克服这些挑战,该方法融合了先进的技术,例如卷积神经网络(CNN),改进的差异进化(DE)算法(DE)算法以及用于培训的基于增强学习(RL)模型。开发这种方法由于来自德黑兰OMID医院的Z- Alizadeh Sani心肌炎的分类不平衡,提出了重大挑战。为了解决这个问题,培训过程被构建为一个顺序决策过程,在该过程中,代理会获得更高的奖励/罚款,以正确/错误地对Mi-Nority/多数派类进行分类。此外,作者提出了一种增强的DE算法来启动反向传播(BP)过程,从而克服了基于梯度的方法的初始化灵敏度问题,例如训练阶段的后退传播。通过基于标准性能指标的实验结果证明了拟议模型诊断心肌炎的有效性。总的来说,这种方法显示出加快CMR图像的分类,以自动筛查,促进早期检测和成功治疗心肌炎。
主动推理是理解生物智能的贝叶斯框架。其基本理论将感知和行动归结为一个单一的命令:最小化自由能。然而,尽管它在解释智能方面具有理论效用,但计算实现却仅限于低维和理想化的情况。在本文中,我们提出了一种神经架构,用于构建在复杂、连续状态空间中运行的深度主动推理代理,使用多种形式的蒙特卡罗 (MC) 采样。为此,我们介绍了一些对主动推理来说新颖的技术。这些包括:i) 通过 MC 树搜索选择自由能量最优策略,ii) 通过前馈“习惯性”网络近似该最优策略分布,iii) 使用 MC 丢失预测未来参数信念更新,最后,iv) 优化状态转换精度(一种高端注意力形式)。我们的方法使代理能够有效地学习环境动态,同时与基于奖励的对应者相比保持任务性能。我们在基于 dSprites 数据集的新玩具环境中说明了这一点,并证明主动推理代理会自动创建适合建模状态转换的解开表示。在更复杂的 Animal-AI 环境中,我们的代理(使用相同的神经架构)能够模拟未来的状态转换和动作(即计划),以显示奖励导向的导航 - 尽管暂时停止了视觉输入。这些结果表明,配备 MC 方法的深度主动推理提供了一个灵活的框架来开发受生物启发的智能代理,可应用于机器学习和认知科学。