摘要。本文讨论了当前人工智能 (AI) 技术在解决将初等数学与常识推理相结合的应用题方面的能力和局限性。现有的 AI 系统都无法可靠地解决这些问题。我们回顾了使用 AI 自然语言技术开发的三种方法:直接输出答案、输出解决问题的计算机程序以及输出可以输入到自动定理验证器的形式化表示。我们回顾了一些为评估这些系统而开发的基准和一些实验研究。我们讨论了现有技术在解决此类问题方面的局限性。我们认为,目前尚不清楚这些局限性对于开发用于纯数学研究的 AI 技术是否重要,但它们对于数学应用很重要,并且对于开发能够阅读和理解人类编写的数学内容的程序可能也很重要。
近期问答研究的蓬勃发展产生了大量的事实阅读理解 (RC) 和常识推理数据集。将它们结合起来提出了一种不同类型的任务:不仅要确定文本中是否存在信息,还要确定是否可以对缺失信息做出有把握的猜测。我们提出了 QuAIL,这是第一个结合基于文本、世界知识和无法回答的问题的 RC 数据集,并提供问题类型注释,使给定的 QA 系统能够诊断推理策略。QuAIL 包含 4 个领域中 800 篇文本的 15K 多项选择题。至关重要的是,它提供了一般问题和特定于文本的问题,这些问题不太可能在预训练数据中找到。我们表明,QuAIL 对当前最先进的系统提出了巨大的挑战,与最相似的现有数据集相比,其准确率下降了 30%。
近期问答研究的爆炸式增长产生了大量事实阅读理解 (RC) 和常识推理数据集。将它们结合起来代表着一项不同的任务:不仅要确定文本中是否存在信息,还要确定是否可以对缺失信息做出有把握的猜测。我们提出了 QuAIL,这是第一个结合基于文本、世界知识和无法回答的问题的 RC 数据集,并提供问题类型注释,使给定 QA 系统能够诊断推理策略。QuAIL 包含 4 个领域 800 篇文本的 15000 个多项选择题。至关重要的是,它提供一般问题和特定于文本的问题,这些在预训练数据中不太可能找到。我们表明,QuAIL 对当前最先进的系统提出了巨大的挑战,与最相似的现有数据集相比,其准确率下降了 30%。
摘要:数字机器智能从最初的数字计算形式发展到人工智能,其核心是执行人类可以执行的认知任务,例如预测推理或复杂计算。最先进的技术包括可以通过一系列正式的数学规则或一系列事件驱动的操作轻松描述的任务,例如建模、模拟、业务工作流、与设备的交互等,以及易于“直观”完成但难以正式描述或作为一系列事件驱动的操作的任务,例如识别口语或面孔。虽然这些任务令人印象深刻,但它们在将常识推理应用于新情况、填补信息空白或理解和应用不成文的规则或规范方面存在不足。人类智能使用联想记忆和事件驱动的交易历史来快速理解他们所观察到的内容,以便在他们仍在观察时对其进行处理。除了这种认知能力之外,所有生物系统都表现出自创生和自我调节。在本文中,我们展示了如何增强机器智能,使其包括联想记忆和事件驱动的交易历史,从而创建一类新的基于知识的助手来增强人类智能。数字助理使用从大型语言模型中获得的全局知识来弥合相互交互的各个参与者之间的知识差距。我们使用信息的一般理论和基于模式的知识表示来创建交互中涉及的各种交易的记忆和历史记录。
动机和总体愿景 近年来,人工智能系统取得了长足进步,带来了许多成功的应用,这些应用渗透到了我们的日常生活中。然而,我们看到的仍然是狭义人工智能的例子:这些发展通常都集中在一组非常有限的能力和目标上,例如图像解释、自然语言处理、标签分类、预测等等。此外,虽然这些成功可以归功于改进的算法和技术,但它们也与海量数据集和计算能力的可用性密切相关(Marcus 2020)。最先进的人工智能仍然缺乏许多自然包含在智能概念中的能力,例如,如果我们将这些人工智能技术与人类能够做的事情进行比较。这些能力的例子包括可概括性、鲁棒性、可解释性、因果分析、抽象、常识推理、道德推理,以及由隐性和显性知识支持的复杂而无缝的学习和推理集成。目前,人工智能社区的大多数人正在尝试解决人工智能的当前局限性,并使用各种方法创建能够显示更多类似人类特质的系统。主要争论之一是端到端神经网络方法是否可以实现这一目标?或者我们是否需要将机器学习与符号和基于逻辑的人工智能技术相结合?我们认为集成路线是最有前途的,并且
动机和总体愿景 近年来,人工智能系统取得了长足进步,带来了许多成功的应用,这些应用渗透到了我们的日常生活中。然而,我们看到的仍然是狭义人工智能的例子:这些发展通常都集中在一组非常有限的能力和目标上,例如图像解释、自然语言处理、标签分类、预测等等。此外,虽然这些成功可以归功于改进的算法和技术,但它们也与海量数据集和计算能力的可用性密切相关(Marcus 2020)。最先进的人工智能仍然缺乏许多自然包含在智能概念中的能力,例如,如果我们将这些人工智能技术与人类能够做的事情进行比较。这些能力的例子包括可概括性、鲁棒性、可解释性、因果分析、抽象、常识推理、道德推理,以及由隐性和显性知识支持的复杂而无缝的学习和推理集成。目前,人工智能社区的大多数人正在尝试解决人工智能的当前局限性,并使用各种方法创建能够显示更多类似人类品质的系统。主要争论之一是端到端神经网络方法是否可以实现这一目标?或者我们是否需要将机器学习与符号和基于逻辑的人工智能技术相结合?我们认为集成路线是最有前途的,
计算机科学系 CSCI 5355 教学大纲,第 1 页 斯蒂芬 F. 奥斯汀州立大学 09/01/20 CSCI 5355 - 人工智能与专家系统 学分:3 先决条件:研究生学分和 9 个高级学时 CSCI 成绩提醒:每门先决条件课程的成绩必须为 C 或更高。 目录描述 使用计算机解决涉及信息表示、搜索、定理证明和替换模式匹配的问题。知识表示、搜索、空间、时间和常识推理以及逻辑和概率推理的方法。在专家系统和机器人技术中的应用。 课程目的 介绍人工智能的基本概念和技术,并深入了解活跃的研究领域和当前的应用。 教育目标 本课程的目标是让学生发展与需要智能才能解决的问题相关的概念和技能。这些问题需要使用搜索、模式匹配、知识表示、机器学习、推理、不确定性和执行“常识”处理的能力的解决策略。评估将基于实验室作业的成功完成、家庭作业的表现和考试答案的分析。成功完成课程后,学生应该能够:1. 展示对计算解决问题中的问题、关注点和难题的了解
高度发展。然而,众所周知,经典布尔逻辑在处理不确定性、等级真值或相似性等问题时是不够的,因此出现了其他更具表现力的逻辑,这些逻辑与人工智能更加相关。非经典逻辑作为解决许多人工智能挑战的方法而出现。事实上,正是在 20 世纪,逻辑中解决了模糊性、多义性和不确定性的形式化问题。这样,改变或删除经典逻辑的七个传统标准属性中的一些属性的想法导致了非经典逻辑的诞生。这些逻辑包括一大类不同的逻辑系统,例如模态逻辑、模糊逻辑、直觉逻辑或多值逻辑 [7、8、10 – 13、20、24、25、27、31]。在人工智能领域,我们通常区分出四种一般方法 [33]:基于逻辑的人工智能、非逻辑主义人工智能、智能代理连续体方法和异构人工智能方法。基于逻辑的人工智能是一种符号方法,由麦卡锡 [28] 于 1959 年具体发起,它基于使用逻辑将知识形式化并通过逻辑推理解决问题的一般思想。该方法涵盖的一些主要领域包括知识表示、信念理论、系统实现、非单调推理、溯因和归纳推理、常识推理和规划以及问题解决(有关基于逻辑的人工智能的一般讨论,请参阅 [29])。请注意,基于逻辑的人工智能是本特刊中处理的方法。多值逻辑应用的最突出领域是基于逻辑的人工智能。一些重要的应用领域包括数据和知识挖掘的自动化、模糊概念的形式化和常识推理。在文献中,在人工智能中使用多值逻辑的研究工作包括:Aksoy 和 Ercanoglu [ 1 ] 在滑坡识别和分类中使用多值逻辑;Moraga 等人[30] 回顾并讨论了用于模糊控制的多值逻辑;Falomir 等人[22] 使用描述逻辑来解释数字图像,通过每个对象的颜色和定性形状以及其主要空间特征(位置、相对方向和拓扑)来描述每个对象,这允许通过推理推断出新的对象类别(例如门);Corsi 和 Fermüller[14] 探讨了加权论证框架与基于 t 范数的逻辑之间的联系; Almubarak 等人 [ 2 ] 提出了一种基于模糊逻辑的颜色直方图分析方法,用于在皮肤镜图像中区分良性皮肤病变和恶性黑色素瘤;Badia 等人 [ 4 ] 和 Costa 和 Dellunde [ 15 ] 研究了模糊逻辑编程和计算机科学中相关概念的逻辑属性,16];Eklund 和Löfstrand[19]应用多值逻辑,旨在丰富制造业中关于产品和生产过程的信息结构及其表示的语言;Falomir 和Pich[32]提出了一种组成定性形状的逻辑方法,并将其应用于解决空间推理测试;Flaminio等人[23]分析了多值逻辑与不确定性决策理论之间的关系;Falomir等人[21]定义了将模糊颜色模型与概率参考和接地机制(PRAGR)相结合的逻辑,以便根据上下文获得对象最具辨别力的颜色描述符。最近,Dubois等人[18]发表了关于用于推理的多值逻辑的专刊。
我们解决了场景中检测出偏置(OOC)对象的问题。给定图像,我们的目的是确定图像是否具有在通常的上下文中不存在的对象并定位此类OOC对象。现有的OOC检测方法取决于根据手动构造的特征定义共同的上下文,例如对象的同时存在,对象之间的空间关系以及对象的形状和大小,然后学习给定数据集的上下文。但上下文通常是从非常普遍到非常令人惊讶的不等式的。,从特定数据集中获得的学习上下文可能不会被赋予一般性,因为数据集可能并不能真正代表上下文中事物的人类否定。是由大型语言模型的成功和更普遍的基础模型(FMS)在常识推理中的动机所激发的,我们研究了FM捕获上下文概念的FM的能力。我们发现,诸如GPT-4之类的预训练的FM提供了更细微的OOC概念,并且当与其他预训练的FMS结合以进行字幕生成(例如BLIP-2)(例如BLIP-2),并与sta-ble扩散2.0进行图像。我们的方法不需要任何数据集特定培训。我们在两个OOC对象检测数据集上演示了我们的AP的效率,在MIT-OOC数据集上实现了90.8%的零弹药精度,而IJCAI22-Coco-OC-OOC数据集则在IJCAI222222222的数据集上实现了87.26%。
摘要:导航研究中的一个难以捉摸的目标是建立一个智能代理,该智能代理可以理解包括自然语言和IM的多模式说明,并执行有用的导航。为了实现这一目标,我们研究了一个广泛有用的导航任务,我们称之为多模式指令导航,该导航带有恶魔之旅(MINT),其中通过预先录制的演示视频提供了先验的环境。视觉语言模型(VLM)的最新进展在实现这一目标方面表现出了有希望的途径,因为它展示了感知和推理多模式输入的能力。为了解决薄荷,我们提出了移动性VLA,这是一种层次视觉语言行动(VLA)导航政策,将环境理解和长篇小说VLM的常识推理能力结合在一起,以及基于拓扑图的强大的低级导航策略。高级策略由一个长篇小说VLM组成,该VLM将演示游览视频和多模式用户指令作为输入,以在旅行视频中找到目标框架。接下来,一个低级策略使用目标框架和构造的拓扑图来在每个时间步中生成机器人动作。我们在836M 2现实世界环境中评估了移动性VLA,并表明Mobility VLA在以前未解决的多模式指令中具有很高的端到端成功率,例如“我应该在哪里返回?”拿着一个塑料箱。可以在此处找到一个展示移动性VLA的视频:youtu.be/-tof Q8 5S