摘要 - 开放的vocabulary泛化要求机器人系统执行涉及复杂和多样化的环境和任务目标的任务。虽然视觉语言模型(VLMS)的最新进展为解决看不见的问题提供了前所未有的机会,但如何利用其新兴能力来控制物理世界中的机器人仍然是一个悬而未决的问题。在本文中,我们介绍了标记开放式摄影键关键点(MOKA),该方法采用VLMS来解决由自由形式语言描述所指定的机器人操纵任务。我们方法的核心是基于紧凑的负担能力和运动的表示,它桥接了VLM对RGB图像的预测以及机器人在物理世界中的动作。通过在Internet规模数据上提示VLM预先训练的VLM,我们的方法可以通过利用广泛来源的概念理解和常识性知识来预测能力并产生相应的动作。要以零拍打为vlm的推理,我们提出了一种视觉提示技术,可以注释图像上的标记,将关键点和路点的预测转换为一系列视觉问题,以解决VLM可行的问题。我们在自由形式的语言描述(例如工具使用,可变形的身体操纵和对象重排)指定的各种操纵任务上评估和分析了Moka的性能。
社会情报对于了解复杂的人类表达和社会影响至关重要。虽然大型的多模型模型(LMM)在社会智能问题答案中表现出了显着的表现(SIQA),但由于在预训练阶段中基于文本的数据的独立流行,它们仍然倾向于产生依靠语言先验的回答,并依靠相关上下文。要解释LMM的上述语言偏见,我们采用了一个结构的因果模型,并认为反事实推理可以通过避免LMMS内部常识知识与给定的结论之间的虚假相关性来减轻偏见。但是,构建多模式反事实样本是昂贵且具有挑战性的。为了应对上述挑战,我们提出了一个输出d Istribution c校准网络,该网络具有v irtual c-osunterfactual(dcvc)数据。DCVC设计了一个新颖的外部分配校准网络,以减轻负面语言偏见的影响,同时保留有益的先验。扰动被引入LMMS的输出分布,以模拟从上下文中的分布的分布转移,该分布被用来构建相反的aug augs数据。在多个数据集上进行的实验证明了我们提出的方法的有效性和可实现性。
小语言模型(SLM)由于在边缘设备中的广泛应用而引起了学术界和行业的极大关注。为了获得具有强大性能的SLM,传统方法要么从头开始预训练模型,这会产生大量的计算成本,或者压缩/修剪现有的大语言模型(LLMS),这会导致性能下降,并且与预训练相比差不多。在本文中,我们研究了涉及结构化修剪和模型训练的加速方法家族。我们发现1)层面的适应性修剪(适应性培训)在LLM中非常有效,并且对现有的修剪技术的改善具有显着改善,2)适应性修剪,配备了进一步的训练导致模型,可与模型相当,与那些从抓挠中进行预训练的模型相当,3)逐步训练,仅通过促进培训,而仅通过互动而进行较小的培训(仅在较小的培训中),并且仅通过互动而进行互动(仅在较小的情况下),并且促进了较小的培训。一次5%)。对Llama-3.1-8b的实验结果表明,适应性抗性的表现要优于常规修剪方法,例如LLM-PRUNER,FLAP和SLICEGPT,平均在平均基准的准确度中以1%-7%的速度为1%-7%。此外,改编普朗纳(Adapt-Pruner)在MMLU基准测试上恢复了Mobilellm-125m的性能,并通过从其较大的对应物中修剪来降低代币,并发现了超过多个基准标记Llama-3.2-1B的新型1B模型。
C. 机器人技术 D. 以上所有 答:D 13. 已知的具有思考、推理和学习能力的计算机系统的特征是 A. 机器智能 B. 人类智能 C. 人工智能 D. 虚拟智能 答:C 14. 第一个人工智能编程语言叫做: A. BASIC B. FORTRAN C. IPL D. LISP 答:C 15. 第一种广泛使用的人工智能(Al)商业形式正被用于许多流行产品,如微波炉、汽车和台式电脑的插入式电路板。人工智能的名称是什么? A. 布尔逻辑 B. 人类逻辑 C. 模糊逻辑 D. 功能逻辑 答:C 16. 什么术语用于描述问题解决的判断或常识部分? A. 启发式 B. 批判性 C. 基于价值 D. 分析性 答案:A 17. ______ 是计算机科学的一个分支,它涉及帮助机器以更人性化的方式找到解决复杂问题的方法 A. 人工智能 B. 物联网 C. 嵌入式系统 D. 网络安全 答案:A 18. 在 ____ 中,目标是让软件使用它在一个领域学到的知识来解决其他领域的问题。 A. 机器学习 B. 深度学习 C. 神经网络 D. 以上都不是 答案:B
例如,虽然当今的计算机视觉系统可以识别物体的感知类别,例如将金门大桥的照片标记为“一座桥”,但这些系统缺乏人类对这些物体的丰富概念知识——这些知识使得人类能够在各种各样的情况下对这些物体进行稳健的识别。此外,人类能够形成抽象并将其应用于新情况,而这种方式甚至连当今最好的机器都无法做到。继续使用“桥”的例子,人类可以轻松理解扩展和隐喻概念,例如“水桥”、“蚂蚁桥”、“桥接手指”、“鼻桥”、“歌曲之桥”、“弥合性别差距”、“过桥贷款”、“烧毁桥梁”、“桥下的水”等等。事实上,对于人类来说,任何感知类别(例如桥梁)都是通过其背后的丰富概念结构来理解的。这种概念结构使人类能够轻松回答一些常识性问题,例如“如果你开车经过一座高架吊桥会发生什么?”或“跨越性别差距的桥的两边各有什么?”此外,头脑中的概念结构使人类能够轻松生成不同抽象层次的“桥梁”;例如,想象你自己用腿在沙发和咖啡桌之间架起一座桥梁,或者用其他音符在钢琴上的两个音符之间架起一座桥梁,或者通过对话弥合与配偶之间的差异。
2 参见米勒诉阿拉巴马州案,567 US 460, 471 (2012)(“我们的判决不仅基于常识——即‘任何父母都知道的’东西,也基于科学和社会科学。”);JDB诉北卡罗莱纳州案,564 US 261, 273 n.5 (2011)(“尽管不需要引用社会科学和认知科学权威来建立这些常识性主张,但文献证实了经验所证明的结果。”);格雷厄姆诉佛罗里达州案,560 US 48, 68 (2010)(“心理学和脑科学的发展继续表明青少年和成年人心智之间存在根本差异。”);罗珀诉西蒙斯案,543 US 551,569 (2005)(“答辩人的科学和社会学研究以及他的法庭之友的引用都倾向于证实,‘与成年人相比,青少年更经常地发现成熟度和责任感不强,而且这在年轻人中更容易理解。’”);斯坦福诉肯塔基案,492 US 361,384 (1989)(布伦南法官持不同意见)(“在相关领域拥有专业知识的组织的观点……值得我们关注。”);汤普森诉俄克拉荷马州案,487 US 815,835 n.42 (1988)(多数意见)(引用“对美国被判处死刑的14名青少年的专业评估,该评估已被接受提交给美国儿童和青少年精神病学学会”)。
机器人群是由许多简单的机器人组成的,这些机器人可以交流和劳动以完成复杂的任务。机器人控制器通常需要由专家通过编程代码在情况下指定。此过程很耗时,容易出错,并且无法考虑部署期间可能遇到的所有情况。另一方面,最近的大型语言模式(LLMS)已展示了推理和计划功能,引入了与互动和编程机器进行交互的新方法,并纳入了特定领域和常识性知识。因此,我们建议通过将LLM与机器人群集成并展示概念证明的潜力(展示)来应对上述挑战。为此,我们探索了两种方法。第一种方法是“间接集成”,其中LLM用于合成和验证机器人控制器。这种方法可能会减少开发时间和部署前的人为错误。此外,在部署期间,它可以用于现实的新机器人行为。第二种方法是“直接集成”,每个机器人在部署机器人协作和人类处理交互期间本地执行单独的LLM实例。这些本地LLM实例使每个机器人都能使用自然语言进行推理,计划和协作,就像我们的展示案例中所阐述的那样,机器人能够检测到各种异常,而没有有关这些异常性质的事先信息。为了进一步研究我们的主要概念贡献,我们为LLM2SWARM系统发布了软件和视频:https://github.com/pold87/llm2swarm。
自2020年以来,为了回应社区围绕种族不公正和高度可见的警察杀害没有武装的黑人,尤其是在美国,不仅在美国,全世界许多部门的著名机构已公开承诺纠正长期存在的社会社会,尤其是种族的不平等和义务。学术期刊的学术出版商和编辑也做出了回应,在2020年Wiley的“多样性,公平和包容性”(DEI)承诺中,以及我们的出版商创建了一个专门的DEI团队。来自我们同志学科中著名期刊的编辑陈述也是这一趋势的证据;例如,组织的编辑保证伴随着在明尼阿波利斯谋杀乔治·弗洛伊德(George Floyd)谋杀乔治·弗洛伊德(Mir and Zanoni,2021年,第3页)之后,由种族正义组织的“道德和政治势头”。Some critical scholars are skeptical of these public commitments, noting that, after Floyd's murder, statements of allyship were often crafted in a way that obscured exactly how institutions or organizations would commit to efficacious solidarity, and that public statements of commitment to social justice arguably converge with an array of affirmative and “positive” messages in advertising that “[reconfigure] oppression in terms of aspiration” and maintain neoliberal常识(Kanai和Gill,2021年,第12页)。作为地理指南针的部分编辑,我们希望我们可以通过将自己的纪律辩论置于面向公共的承诺的背景下,并确定解决系统不平等,不公正现象,不公正和在我们的编辑工作中排除的可行和可行的方法。
摘要 - 现实生活中的机器人导航不仅涉及到达目的地;它需要在解决方案特定目标的同时优化运动。人类表达这些目标的一种直观方式是通过诸如口头命令或粗略草图之类的抽象提示。这样的人类指导可能缺乏细节或嘈杂。尽管如此,我们希望机器人能够按预期导航。让机器人根据人类期望来解释和执行这些抽象说明,他们必须与人类对基本导航概念有共同的理解。为此,我们介绍了Canvas,这是一个新颖的框架,结合了常识感知导航的视觉和语言说明。它的成功是由模仿学习驱动的,使机器人能够从人类航行行为中学习。我们提出命令,这是一个具有人类通知结果的综合数据集,范围超过48小时,219公里,旨在训练模拟环境中的常识性导航系统。我们的实验表明,画布在所有环境中都超过了强大的基于规则的系统,并以嘈杂的说明显示出了卓越的性能。值得注意的是,在果园环境中,Ros Navstack记录了总成功率0%,帆布的总成功率为67%。画布也与人类的示范和常识性约束密切一致,即使在看不见的环境中也是如此。此外,画布的现实部署展示了令人印象深刻的Sim2real转移,总成功率为69%,强调了在模拟环境中为现实世界应用中的人类展示学习的潜力。
高度发展。然而,众所周知,经典布尔逻辑在处理不确定性、等级真值或相似性等问题时是不够的,因此出现了其他更具表现力的逻辑,这些逻辑与人工智能更加相关。非经典逻辑作为解决许多人工智能挑战的方法而出现。事实上,正是在 20 世纪,逻辑中解决了模糊性、多义性和不确定性的形式化问题。这样,改变或删除经典逻辑的七个传统标准属性中的一些属性的想法导致了非经典逻辑的诞生。这些逻辑包括一大类不同的逻辑系统,例如模态逻辑、模糊逻辑、直觉逻辑或多值逻辑 [7、8、10 – 13、20、24、25、27、31]。在人工智能领域,我们通常区分出四种一般方法 [33]:基于逻辑的人工智能、非逻辑主义人工智能、智能代理连续体方法和异构人工智能方法。基于逻辑的人工智能是一种符号方法,由麦卡锡 [28] 于 1959 年具体发起,它基于使用逻辑将知识形式化并通过逻辑推理解决问题的一般思想。该方法涵盖的一些主要领域包括知识表示、信念理论、系统实现、非单调推理、溯因和归纳推理、常识推理和规划以及问题解决(有关基于逻辑的人工智能的一般讨论,请参阅 [29])。请注意,基于逻辑的人工智能是本特刊中处理的方法。多值逻辑应用的最突出领域是基于逻辑的人工智能。一些重要的应用领域包括数据和知识挖掘的自动化、模糊概念的形式化和常识推理。在文献中,在人工智能中使用多值逻辑的研究工作包括:Aksoy 和 Ercanoglu [ 1 ] 在滑坡识别和分类中使用多值逻辑;Moraga 等人[30] 回顾并讨论了用于模糊控制的多值逻辑;Falomir 等人[22] 使用描述逻辑来解释数字图像,通过每个对象的颜色和定性形状以及其主要空间特征(位置、相对方向和拓扑)来描述每个对象,这允许通过推理推断出新的对象类别(例如门);Corsi 和 Fermüller[14] 探讨了加权论证框架与基于 t 范数的逻辑之间的联系; Almubarak 等人 [ 2 ] 提出了一种基于模糊逻辑的颜色直方图分析方法,用于在皮肤镜图像中区分良性皮肤病变和恶性黑色素瘤;Badia 等人 [ 4 ] 和 Costa 和 Dellunde [ 15 ] 研究了模糊逻辑编程和计算机科学中相关概念的逻辑属性,16];Eklund 和Löfstrand[19]应用多值逻辑,旨在丰富制造业中关于产品和生产过程的信息结构及其表示的语言;Falomir 和Pich[32]提出了一种组成定性形状的逻辑方法,并将其应用于解决空间推理测试;Flaminio等人[23]分析了多值逻辑与不确定性决策理论之间的关系;Falomir等人[21]定义了将模糊颜色模型与概率参考和接地机制(PRAGR)相结合的逻辑,以便根据上下文获得对象最具辨别力的颜色描述符。最近,Dubois等人[18]发表了关于用于推理的多值逻辑的专刊。