摘要。本文提出了一种基于对抗学习的脑肿瘤分割任务训练方法。在这个概念中,3D 分割网络从对偶对抗学习方法中学习。为了增强分割预测的泛化能力并使分割网络具有鲁棒性,我们遵循虚拟对抗训练方法,通过在原始患者数据上添加一些噪声来生成更多的对抗性示例。通过加入一个充当定量主观裁判的评论家,分割网络从与分割结果相关的不确定性信息中学习。我们在 RSNA-ASNR-MICCAI BraTS 2021 数据集上对网络架构进行了训练和评估。我们在在线验证数据集上的表现如下:Dice 相似度得分分别为 81.38%、90.77% 和 85.39%;增强肿瘤、整个肿瘤和肿瘤核心的 HausdorffiDistance (95%) 分别为 21.83 毫米、5.37 毫米、8.56 毫米。同样,我们的方法在最终测试数据集上实现了 84.55%、90.46% 和 85.30% 的 Dice 相似度得分,以及 13.48 毫米、6.32 毫米和 16.98 毫米的 HausdorffiDistance (95%)。总体而言,我们提出的方法在每个肿瘤子区域的分割精度方面都取得了更好的表现。我们的代码实现是公开的。
摘要 - 制作制作是自动驾驶汽车(AV)领域中的关键组成部分,在浏览自动驾驶的复杂性方面发挥了至关重要的作用。在数据驱动方法的不断发展的景观中,在复杂场景中提高决策绩效已成为一个著名的研究重点。尽管有相当大的进步,但目前的基于学习的决策方法仍具有改进的潜力,尤其是在政策表达和安全保证方面。为了应对这些挑战,我们介绍了DDM-LAG,这是一种扩散的决策模型,并以基于拉格朗日的安全性增强功能增强。这项工作认为自动驾驶中固有的顺序决策挑战是生成建模的问题,采用扩散模型作为吸收决策模式的媒介。我们为扩散模型介绍了混合政策更新策略,将行为克隆和Q学习的原理融合在一起,并制定了Actor-Citry-Clicer体系结构以促进更新。为了通过安全层增强模型的勘探过程,我们采用了基于拉格朗日放松的复杂政策优化技术,并采用了其他安全限制,以全面地完善政策学习努力。对我们提出的决策方法的经验评估是在一系列驾驶任务中进行的,这些任务的复杂性和环境环境不同。使用已建立的基线方法的比较分析阐明了我们的模型的出色性能,尤其是在安全性和整体功效的方面。
颠倒的强化学习(UDRL)是解决强化学习问题的有前途的框架,该问题着重于学习命令条件条件政策。在这项工作中,我们将UDRL扩展到学习深神经网络策略的命令条件发生器的任务。我们使用HyperNeTworks完成了这一点,这是一系列快速权重程序员,该程序学会解码输入命令,代表所需的预期返回到特定于命令的权重矩阵。我们的方法是通过策略生成器(UDRLPG)被称为颠倒的增强学习,通过消除评估者或评论家以更新生成器的权重来简化可比较的技术。为了抵消由于没有评估者而引起的最后回报的增加的差异,我们将缓冲液的采样概率与其中的绝对策略数量解脱出来,该策略与简单的权重策略一起改善了算法的经验收敛。与现有算法相比,UDRLPG实现了竞争性能和高回报,有时表现出色的架构更为复杂。我们的实验表明,受过训练的发电机可以概括以创建可实现零射击返回的策略。所提出的方法似乎有效缓解与学习高度模式功能相关的一些挑战。总的来说,我们认为UDRLPG代表了在RL中实现更高的经验样本效率方面迈出的前进一步。https://github.com/jacopod/udrlpg全面实现UDRLPG
经济学家们总是对机器为我们所做的事感到不安。一方面,机器是推动资本主义经济的投资的体现。另一方面,大多数时候,当一台机器进入时,工人就会离开——有时是许多工人。经济学家们一直认为,一台机器可能会取代一些工人,但最终,他们坚持认为,生产力将大大提高,从而提高国民收入。但谁得到了收入?1819 年,著名经济学家大卫·李嘉图写道,只要租金和利润(新投资流出)不减少,经济中的就业量就无关紧要。“真的吗?”当时著名的瑞士评论家西蒙德·德·西斯蒙第回答道。 “财富就是一切,人什么都不是?什么?……事实上,没有什么比国王独自留在岛上,通过不断转动曲柄,通过自动机生产出英国所有的产品更令人向往的了。”杰里米·里夫金的这本令人大开眼界的书讲述了一个公司取代国王的世界,公司转动曲柄,启动机械、电气和电子自动机,为国家提供商品和服务。这绝不是最近的发展。如果我们能纵观美国的人机历史——或者就此而言,任何现代国家——我们都会发现,两百年来,
从演示中学习(RLFD)的强化学习已成为一种有效的方法,它通过将专家演示融合到加强学习(RL)培训,利用模仿学习(IL)和RL的优势。但是,现有的算法依赖于离线演示,这可以引入示例和实际培训环境之间的分配差距,从而限制其性能。在本文中,我们提出了一种新颖的方法,并从在线演示中学习(RL- fold),该方法利用在线演示来解决这一限制,确保代理商从相关和最新的场景中学习,从而有效地弥合了分发差距。与典型行为者算法中使用的常规政策网络不同,Rlfold引入了一个策略网络,该策略网络输出两个标准偏差:一个用于探索,另一个用于IL培训。这种新颖的设计使代理可以适应RL和IL固有的不同水平。此外,我们引入了由在线专家指导的探索过程,并结合了基于不确定性的技术。我们对Carla Nocrash基准测试的实验证明了Rlfold的有效性和效率。没有明显的编码器和单摄像头设置,RLFOLD在此评估中也超过了最新方法。这些结果在有限的源源中实现,重点介绍了RLFOLD是现实世界应用的高度有希望的解决方案。
Actor-Critic方法在许多领域中实现了最新的性能,包括机器人技术,游戏和控制系统([1],[2],[3])。时间差异(TD)学习可能被认为是演员评论家的组成部分,而TD学习的更好界限通常是参与者 - 批评分析的成分。我们考虑强化学习中的政策评估问题:鉴于马尔可夫决策过程(MDP)和政策,我们需要估算本政策下每个州(预期的所有未来奖励总和)的价值。政策评估很重要,因为它实际上是许多其他算法(例如策略迭代和参与者批评)的子例程。政策评估的主要挑战是,我们通常不知道基本的MDP,并且只能与之互动,并且状态数量通常太大,迫使我们维持对状态值的真实向量的低维近似。我们将重点放在克服这组挑战的最简单类别的方法上,即具有线性函数近似的TD方法。这些方法试图维持低维参数,该参数会根据观察到的奖励和过渡不断更新,以维持跨州估计值的一致性。这些方法的收敛证明首先在[4]中给出。在本文中,我们重点介绍了策略评估的多代理版本:我们考虑具有同一MDP和相同政策副本的n个代理,但是MDP
通过增强学习(RL)进行拖曳减少的主动流控制(RL)是在带有涡旋脱落的层流方向的二维方形悬崖体后进行的。由神经网络参数参数的控制器经过训练,以驱动操纵不稳定流量的两次吹和吸气喷气机。具有完全可观察性的RL(传感器在尾流中)成功地发现了一种控制策略,该策略通过抑制涡流脱落而降低阻力。但是,当控制器接受部分测量(体内传感器)训练时,观察到不可忽略的性能降解(减少50%)。为了减轻这种效果,我们提出了一种能量,动态的,最大的熵RL控制方案。首先,提出了基于能量的奖励功能,以优化控制器的能量消耗,同时最大程度地减少阻力。第二,控制器的培训是通过由当前和过去的测量和动作组成的增强状态训练的,可以将其作为非线性自回归外源模型进行配制,以减轻部分可观察性问题。使用第三,最大熵RL算法(软演员评论家和截短的分位数评论家),以样本效果的方式促进探索和剥削,并在挑战性的部分测量案例中发现近乎最佳的策略。稳定涡流脱落是在人体后部仅使用表面压力测量的近唤醒中实现的,从而导致与唤醒传感器相似的阻力减小。提出的方法使用部分测量对现实配置开辟了新的动态流量控制途径。
科学研究常常受益于跨学科研究团队。然而,大多数科学家无法接触到来自多个领域的专家。幸运的是,大型语言模型 (LLM) 最近表现出令人印象深刻的能力,可以通过回答科学问题来帮助不同领域的研究人员。在这里,我们通过引入虚拟实验室来扩展 LLM 在科学方面的能力,虚拟实验室是一个人工智能与人类的研究合作,用于进行复杂的跨学科科学研究。虚拟实验室由一名 LLM 首席研究员代理组成,该代理指导具有不同科学背景的 LLM 代理团队(例如,化学家代理、计算机科学家代理、评论家代理),由一名人类研究人员提供高级反馈。我们设计虚拟实验室通过一系列团队会议进行科学研究,所有代理讨论科学议程,以及个人会议,代理完成特定任务。我们通过将虚拟实验室应用于设计与 SARS-CoV-2 最新变体的纳米抗体结合物来展示其强大功能,这是一个具有挑战性的开放式研究问题,需要从生物学到计算机科学等不同领域的推理。虚拟实验室创建了一种新颖的计算纳米抗体设计流程,该流程结合了 ESM、AlphaFold-Multimer 和 Rosetta,并设计了 92 种新纳米抗体。对这些设计的实验验证揭示了一系列功能性纳米抗体,它们在 SARS-CoV-2 变体中具有良好的结合特性。这证明了虚拟实验室能够快速做出有影响力的现实世界科学发现。特别是,两种新的纳米抗体表现出与最近的 SARS-CoV-2 JN.1 或 KP.3 变体改善的结合,同时保持与祖先病毒刺突蛋白的强结合,这表明它们是值得进一步研究的令人兴奋的候选者。
摘要 关键词 目的:本文探讨人工智能在世界范围内的新技术发展,旨在对体育的积极和消极影响进行概述和一些评估。方法:本文采用文献综述和描述方法讨论不同类型的评论和文章,对主题进行概述、命题、比较和批评。概念框架:当前世界各地正在发展的技术正在体育领域取得革命性的进步。特别是技术的发展和人工智能的使用为个人和社会提供了体育和体育管理的新机遇。这种情况为体育管理者在决策过程中纳入一定程度的技术铺平了高效和有效的体育管理道路。随着这些发展,如果管理者从最高层面受益,体育领域的发展将能够以更具活力的速度向前发展。对于体育的发展,可以通过使用全球体育领域开发的人工智能模型来制定预测性和准确的决策,以防止问题出现。为此,在这篇文献综述中,对涵盖世界体育服务和产业的人工智能新技术发展进行了扫描,并根据人工智能对体育的积极和消极影响进行了研究。在研究中,得出结论,体育领域现在正处于受到人工智能影响的阶段。在这方面提出了一些评估和建议。结论:人工智能在体育和体育相关活动中的使用可能会为可靠和精确的比赛或竞赛提供令人难以置信的帮助。然而,在人类生活中无限使用技术机会的情况下,当今以人类为基础的体育运动可能会处于危险之中。
自然语言解释(NLE)是阐明大语模型(LLM)决策背后推理的案例。已经开发了许多技术来使用LLM生成NLS。但是,像人类一样,LLM可能并不总是在第一次尝试时产生最佳的NLE。受到人类学习过程的启发,我们引入了C Ross -R Efine 1,该1分别通过部署两个LLM作为生成器和评论家来采用角色建模。代理人输出了第一个NLE,然后使用评论家提供的反馈和建议来完善这种易于解释。c ross -r efine不需要任何有监督的培训数据或附加培训。我们通过自动和人类评估使用三个最新的开源LLM验证了三个NLP任务中的C ROSS -R efine。我们选择S ELF -R Efine(Madaan等人,2023)作为基线,它仅利用自我反馈来完善解释。我们从自动评估中的发现和用户研究表明,C ROSS -R efine的表现优于S ELF -R efine。同时,C ross -r efine可以使用较少的功能LLM有效地执行,而S Elf -R efine仅通过ChatGpt产生强劲的结果。此外,我们进行了一项消融研究,以评估反馈和建议的重要性。他们俩在完善解释中起着重要作用。我们在英语和德语的双语数据集上进一步评估了c ross -r efine。