AMB 模糊性 - STARS 宣布的目标位置与设施间交接期间另一设施的计算机宣布的位置之间存在超过 2 英里的差异
摘要 - 我们为自动移动机器人提出了一个基于储层的Q学习模型。该模型是在强化学习框架上训练的,在该框架中,代理商根据环境给出的奖励执行反复试验。此模型中的储层在输入层上接收感官信号,并近似输出层上可能的操作质量。该模型是根据Q-学习训练的,Q学习是一种无模型的重新执行学习算法。Q学习是从最大程度地提高奖励对连续试验的期望值的意义上的最佳政策。我们使用2D机器人模拟器环境评估该模型,其中设备机器人从开始位置转移到目标位置,同时避免环境中的障碍。我们表明该模型正确地学习了适当的行为,并将机器人从开始位置到目标位置。目前的工作可能有助于开发类似脑型的人工智能。1。简介
强化学习(RL)在机器学习算法的领域中脱颖而出,因为其独特的方法涉及代理与环境相互作用的代理,以发现最大程度地提高预期累积奖励的政策。这与监督的学习形成对比,后者依赖于预定的数据标签对来进行更正。在RL中,反馈信号仅来自环境中定义的奖励功能,这使得此奖励功能的设计至关重要。设计较差的奖励功能可以阻碍学习过程,并导致一项预测不良行动的政策[3],强调了RL仔细奖励功能工程的重要性。在为环境设计奖励功能时,尤其是对于机器人操纵任务时,常见的方法是将对象和目标之间的总距离或额外的奖励使用。例如,fetch [29]中的任务使用抓地力和目标位置之间的距离作为奖励,而Metaworld [44]中的拾取位置任务使用抓地力,对象和目标位置之间的距离,并带有额外的奖励,表明对象是否由抓手抓住。但是,这种奖励功能设计倾向于评估当前状态而不是动作本身。一种更强大的方法涉及基于动作的奖励指标,这些指标可以评估行动质量,考虑到诸如动作效率,路径优化和动态相互作用之类的因素。在机器人操纵任务中,要实现目标状态,必须首先实现一系列先决条件。仅在物体和目标位置之间的距离时设计奖励功能通常会错过一些先决条件。
(A) 协议的各个阶段:1. 肌肉活动转化为屏幕光标的移动。在这个图解示例中,右上方的目标出现时会发出相应的声音,提示参与者通过选择性激活两块肌肉将光标从中心移动到目标。灰色方形轮廓显示了这里的八个目标位置,但参与者在每次试验中都只看到一个目标。同样,参与者也看不到此处显示的肌肉图;他们必须了解哪块肌肉与每个方向相关。2. 训练要求学习用每只手臂将光标移动到八个目标位置。3. 训练继续,眼睛上蒙上面罩,以学习仅使用听觉信息执行任务。4. 预测试也仅使用听觉指示和反馈进行。参与者针对 16 个目标(每只手臂 8 个)进行测试,每个目标进行 8 次试验。5. 小睡期间包括对一半目标的 TMR,每只手臂 4 个。6. 后测与预测相同。
摘要 — 定向灰盒模糊测试 (DGF) 可以通过寻求到达程序位置或按顺序探索某些位置来快速发现或重现程序中的错误。然而,由于其静态阶段划分和粗粒度的能量调度,以前的 DGF 工具在面对多个目标位置(简称目标)时表现不佳。在本文中,我们提出了多目标定向灰盒模糊测试,旨在在模糊测试活动中到达多个程序位置。具体而言,我们提出了一种新颖的策略来自适应地协调探索和利用阶段,以及一种新颖的能量调度策略,通过考虑种子和目标位置之间的更多关系。我们在一个名为 LeoFuzz 的工具中实现了我们的方法,并在崩溃重现、真正验证和实际程序中的漏洞暴露方面对其进行了评估。实验结果表明,LeoFuzz 在有效性和效率方面优于六种最先进的模糊测试器,即 QYSM、AFLGo、Lolly、Berry、Beacon 和 WindRanger。此外,LeoFuzz 在实际程序中检测到 23 个新漏洞,其中 11 个已分配 CVE ID。
摘要:在过去的二十年中,在为各种工业应用(包括人类和兽医医学)的可生物降解聚合物材料开发中取得了巨大进展。他们是常用的不可降解聚合物来应对全球塑料浪费危机的有希望的替代品。在使用或可能适用于兽医的可生物降解聚合物中是天然多糖,例如几丁质,壳聚糖和纤维素,以及各种多植物,包括聚(ε-丙酮酸),聚酯酸,聚乳酸,乳酸 - 乙酸 - 甘氨酸酸)和多羟基甲酸盐。它们可以用作组织工程和伤口管理中的植入物,药物载体或生物材料。它们在兽医实践中的使用取决于它们的生物相容性,对生命组织的惰性,机械耐药性和吸附特征。必须专门设计其目的,无论是:(1)促进新的组织生长并允许与活细胞或细胞增长因子进行控制的相互作用,(2)具有机械性能,可以在植入物应用时解决功能,还是(3)在将药物运送到其目标位置时将药物运送到吸毒者时,将药物输送到其目标位置。本文旨在介绍有关兽医生物降解聚合物研究的最新发展,并强调该领域的挑战和未来观点。