hal是一个多学科的开放访问档案,用于存款和传播科学研究文件,无论它们是否已发表。这些文件可能来自法国或国外的教学和研究机构,也可能来自公共或私人研究中心。
目的:对心血管疾病的治疗需要对导丝和导管进行复杂而挑战性的导航。这通常会导致长期干预措施,在此过程中,患者和临床医生暴露于X射线辐射。深度强化学习方法在学习此任务方面表现出了希望,并且可能是在机器人干预过程中自动导管导航的关键。然而,现有的培训方法显示出有限的能力,可以概括看不见的血管解剖结构,每次几何变化时都需要重新训练。方法:在本文中,我们为三维自主内血管内导航提出了零射击学习策略。使用一组非常小的分支模式训练集,我们的增强学习算法能够学习一个控制,然后可以将其应用于不看到的无需再培训的情况下。结果:我们在4种不同的血管系统上演示了我们的方法,在达到这些解剖学的随机靶标时,平均成功率为95%。我们的策略在计算上也有效,可以在2小时内对控制器进行训练。结论:我们的培训方法证明了其具有不同特征的不观察几何形状的能力,这要归功于几乎形状不变的观察空间。关键字 - 强化学习,控制,血管内导航,机器人技术
摘要 - 预计自动驾驶汽车(AV)将采取安全有效的决定。因此,AVS需要对现实世界的情况进行健壮,尤其是应付开放世界的设置,即处理新颖性的能力,例如看不见的对象。经典的对象检测模型经过训练,以识别一组预定义的类,但在推理阶段很难概括为新颖的类。开放式对象检测(OSOD)旨在解决正确检测未知类别对象的挑战。但是,自主驾驶系统具有特定的开放式特性,这些特性尚未涵盖OSOD方法。的确,检测误差可能导致灾难性事件,强调优先考虑盒子检测质量而不是数量的重要性。此外,可以利用在公路场景中遇到的物体的特定特征来改善其在开放世界中的检测。在这种情况下,我们介绍了一种新的自主驾驶感知对象的定义,从而实现了AV专业的开放式对象检测器创建的ADO的命题。所提出的模型使用了一个新的分数,该分数从语义分割的背景基础真理中学到了。在道路对象评分上的这一点可以衡量该对象是否在可驱动区域上,从而增强了未知检测的选择。实验评估是在模拟和现实世界数据集上进行的,并揭示我们的方法的表现优于未知对象检测设置中的基线方法,在已知对象上与封闭式对象检测器具有相同的检测性能。
摘要 - 尽管深度强化学习(DRL)和大型语言模型(LLMS)每个人都在应对自动驾驶中的决策挑战方面有希望,但DRL通常会遭受较高的样本复杂性,而LLMS则难以确保实时决策。为了解决这些局限性,我们提出了Tell-Drive,这是一个混合框架,该框架集成了教师LLM,以指导基于注意力的学生DRL政策。通过将风险指标,历史场景检索和域启发式法纳入上下文提示中,LLM通过思想链推理产生高级驾驶策略。随后,一种自我发挥的机制将这些策略与DRL代理的探索,加速政策融合并提高各种驾驶条件的鲁棒性。在多种流量方案中评估的实验结果表明,就成功率,平均收益和实时可行性而言,Tell-Drive优于现有的基线方法,包括其他基于LLM的方法。消融研究强调了每个模型成分的重要性,尤其是注意机制和LLM驱动指导之间的协同作用。最后,我们构建了一个虚拟真实的融合实验平台,以验证通过车辆中的实验实验在真实车辆上运行的算法的实时性能,易损和可靠性。全面验证结果可在我们的网站上找到。
摘要:自动驾驶汽车和人类驾驶员之间的相互依赖性是自动驾驶安全性和可行性的一个开放问题。本文介绍了游戏理论轨迹计划者和混合人流环境的决策者。我们的解决方案是与周围车辆的相互作用,同时做出决策,并使用用衣架插值方法产生类似人类的轨迹。此处使用的粒子群优化器(PSO)桥梁桥接决策和轨迹生成过程,用于连接执行。我们选择了一个未信号的交叉点,以证明我们方法的可行性。测试结果表明,我们的方法降低了轨迹优化问题的搜索空间的维度,并在路径曲率上实施了几何约束。
部署在公共设置中的机器人输入人类生活和工作的空间。公共HRI的研究倾向于优先考虑直接和故意的互动。但这错过了对机器人的最常见响应形式,范围从微妙的相互作用到几乎忽略它们。从视频录制的基础上采用民族方法学方法,我们展示了从物理环境的社会集会(街景)和日常街头生活的社会环境的社会集会(街道景观)的角度来看,机器人如何嵌入城市空间中。我们表明,由于街道的实际工作,这种机器人是如何通过这些空间“授予通道”的。我们详细介绍了街景的偶然性,引起人们对其各种成员以及他们正在做的住宿工作的关注。我们证明了在整个部署过程中研究机器人的重要性,并侧重于成员的互动工作。
但是,对于启发,规范,验证和验证,有最小的工具支持。这是一项具有挑战性的任务,因为需要参与此过程的专家(伦理学家,律师,监管机构,最终用户等)的非技术和各种背景。我们的软件Sleec-TK是一种用户友好的工具包,采用正式方法,允许利益相关者在验证和验证Sleec要求的验证和验证中了解和解决问题。Sleec-TK是一种公开可用的工具包,可由非技术专家使用,可在[1-3]中支持该过程和技术。由Sleec-TK机械化的Sleec框架包括规则启发过程[1]以及规范,验证和验证技术[2]。[3]中的技术报告介绍了我们的理论基础和过程,以实现Sleec要求的规范,一致性验证和验证。它讨论了Sleec-TK软件中使用的领域特定语言(DSL)和该语言的正式语义,并采用了定时版本的CSP(交流顺序过程)[4]。[2]中描述了我们工具的初始版本,该版本仅支持Sleec语言建模,一致性和冗余验证。我们在这里描述的版本实现了语义的更新版本,该版本提供了增加的可伸缩性,并已得到了广泛的验证。此外,它通过对SLUEC规则的系统模型的一致性验证得到了增强(即,图中所示的Sleec一致性插件1是我们软件中的新组件)。此外,对于Sleec-TK,我们用7个Sleec规范文件验证了规则和语言,与利益相关者一起涵盖了199个规则。从规范思想的角度[5,6]的角度,在开发自主系统方面有重要的工作,包括基于用户的道德选择的透明度[7],解释性和数据驱动的个性化工具[8]。我们Sleec语言的工作还考虑了启发和调试的替代方法[9]。sleec-tk与规范的操作[1] [10]有关,支持自动化过程,以验证和验证捕获这些规范的规则,通过其在𝑡𝑜𝑐𝑘-CSP中描述的语义机械化(定时过程代数[4,11])。sleec-tk被用作Eclipse环境的一组插件,但包括用于Sleec规则验证的独立版本。存储库中的readme.md文件提供了用于下载,安装和使用软件的说明,并提供示例。规则的定义是通过图形界面提供有关任何句法或打字问题的指导的图形界面。在后台,生成𝑡𝑜𝑐𝑘-CSP脚本以支持冲突和冗余的检查。通过在后台使用CSP型号Checker FDR4 [12],以按下按钮进行。验证是通过与Robotool 1 [13]集成而进行的,这是一种使用域特异性符号Robochart建模和验证移动和自治机器人的工具。SLEEC规则可以作为Robochart模型的文档定义属性的一部分,用于自动验证和报告。
摘要:深入强化学习(DRL)已被证明对几种复杂的决策应用有效,例如自主驾驶和机器人技术。但是,众所周知,DRL受到其高样本复杂性和缺乏稳定性的限制。先验知识,例如,作为专家演示,通常可以使用,但要挑战以减轻这些问题。在本文中,我们提出了一般增强模仿(GRI),这是一种新颖的方法,结合了探索和专家数据的好处,并且可以直接实施任何非政策RL算法。我们做出了一个简化的假设:可以将专家演示视为完美的数据,其基础政策将获得不断的高奖励。基于此假设,GRI介绍了示范剂的概念。该代理发送专家数据,这些数据是与在线RL勘探代理所带来的经验同时且无法区分的。我们表明,我们的方法可以对城市环境中基于摄像机的自动驾驶进行重大改进。我们在使用不同的非政策RL算法的穆约科克连续控制任务上进一步验证了GRI方法。我们的方法在Carla排行榜上排名第一个,在先前的最新方法中,在Rails上胜过17%。
|摘要该检查研究了使用深刻学习方法的使用,即明确利用卷积脑组织(CNN),以持续识别道路驾驶情况中的车辆和路径限制。该研究通过利用一个包括由各种传感器捕获的注释帧,包括相机,激光雷达,雷达,雷达和GPS捕获的带注释的框架,调查了对CNN体系结构的修改性能。该框架在识别车辆和预期3D的路径形状方面表现出诚意,同时在不同的GPU设置上完成10 Hz以北的功能率。车辆边界盒预测具有很高的精度,对遮挡的阻力和有效的车道边界识别是关键发现。安静,探索强调了该框架在独立驾驶空间中的可能物质性,为该领域的未来改进带来了有前途的道路。
在不断发展的代理生态系统中,我们观察到,自主代理人现在可以以最少的人类监督来运作,实现明确定义的目标,甚至可以管理无许可的加密钱包 - 使他们能够对Human和其他AI代理产生影响。此外,这些代理人越来越利用社交媒体平台(例如Twitter/x)作为一种通信结构,可与人类和同伴自治实体无缝协调。同时,代理商专注于独特的能力或行动空间,创造了经济价值和围绕其专业知识的竞争护士。但是,这种专业化需要多个独立代理之间的协作来解决彼此在知识或功能方面的差距。这可能导致自治业务的出现,在该企业中,集体经济产出超过了每个代理商的贡献的总和。与更常规的基于群体的LLM方法(仔细地协调和触发代理之间的相互作用与规则之间的相互作用)不同,我们认为独立的专业代理可以通过其独特的模型,数据集和动作空间来实现成倍增加的价值。然而,这些试剂的分散和独立性也引入了复杂信息损失的风险 - 无论是由于误解,幻觉还是不完整的数据交换,因为它们不作为单个,紧密耦合的多代理体系结构的一部分。为了应对这些挑战,我们提出了代理商商业协议(ACP),这是一个为多次分散的自主系统设计的标准化框架。ACP利用区块链技术来保护和简化信息交换,同时引入了通过智能合约实施的四相互动模型 - 请求,谈判,交易和评估。这确保了透明,可验证和防篡改的相互作用。至关重要的是,ACP还提议使用评估者的代理商,该评估者审核和验证交易,从而增强信任并促进由一致激励措施驱动的新市场。我们通过一个实践示例来证明ACP的效用,该实例涉及在ACP标准下协调,谈判和交易的专业剂。通过维护实施 - 不足的原则,ACP为自主贸易建立了强大的基础,为各种代理框架和生态系统提供了广泛的适用性。项目网站:http://app.virtuals.io/research/agent-commerce-protocol。