尽管数十年的研究已经在物理推理中分类了惊人的错误,但对直觉物理的兴趣复兴揭示了人类成功预测物理场景展开的非凡能力。旨在解决这些相反结果的主要解释是,物理推理招募了一种通用机制,可可靠地对身体场景进行建模(解释最近的成功),但过度人为的任务或贫穷而生态无效的刺激可以产生较差的绩效(核算早期失败)。但是,即使在自然主义背景下,也可能会有一些任务会持续构成身体的理解?在这里,我们通过引入一项新的直觉物理任务来探讨这个问题:评估结和缠结的强度。结之间无处不在的文化和时间周期,并且正确评估它们通常会拼写出安全性和危险之间的差异。尽管如此,5个实验表明,观察者在结之间的强度差异也很大。在一系列两种两种强制选择的任务中,观察者查看了各种简单的“弯曲”(结着两条线的结),并决定这需要更多的力才能撤消。尽管这些结的强度是有据可查的,但观察者的判断完全无法反映这些区别,在自然主义照片(E1),理想化的效果图(E2),动态视频(E3)中,甚至伴随着结的策划图(E3)。这些结果在物理推理中暴露了一个盲点,对场景理解的通用理论施加了新的约束。此外,尽管有准确地识别结之间的拓扑差异(E5),但这些失败仍然存在。换句话说,即使观察者正确地感知了结的基础结构,他们也无法正确判断其力量。
对于学术和行业研究,自1980年代以计算机视觉为中心的系统的引入以来,AV技术已经取得了令人难以置信的进步[3]。在这里,本文将为自动驾驶汽车提供一些正式的定义。根据自动化水平,SAE国际自动驾驶汽车定义为六个不同的级别,其中0级没有AU量,并且5级是完全驾驶自动化[6]。尽管AV研究是一个经过充分探索的领域,但仍然没有5级或完全自主的车辆。这在很大程度上是由于计算机视觉系统的缺陷以及需要人类驾驶员存在的更复杂驾驶任务的复杂性。对于安全至关重要的系统,例如AV系统,无法造成小错误。为此,重要的是,AV系统可以根据对周围环境的准确解释做出安全有理的决策。在AV系统的感知端有几种技术,例如光检测和射程(LIDAR)系统和基于摄像机的系统。这些系统与深度学习技术(例如卷积神经网络(CNN))相结合,这些技术用于对传感器数据进行分类[14]。但是,像所有机器学习系统一样,由于噪声,训练数据之外的场景,传感设备的退化以及其他外部因素,误导始终可能发生错误分类。Kahneman在2011年提出的两种系统思维类型[11]。第一个是“系统1”,它是快速,本能和情感思维。因此,AV系统应朝着使用混合AI系统或将深度学习与逻辑推理结合的AI迈进,以帮助减轻完全基于深度学习的方法的失败和缺点。第二个是“系统2”,它是缓慢,有意和逻辑的。对于人类驾驶员,我们在驾驶场景中使用这两个系统。使用System 1 Thinking迅速完成我们周围的对象,并进行较小的驾驶操作。但是,当我们遇到一个不熟悉或危险的情况时,我们使用系统2思考来确定一种安全的方式来驾驶这种情况。在最佳的混合AV系统中,快速系统的1个任务(例如感知和分类)应通过深度学习来处理,而缓慢的系统2任务应通过综合推理来处理。推理系统也可以用于对
计划是行动之前的审议思维行为(Haslum 2006)。它基于世界的符号模型及其在其中作用的选项,通常在功能 - 无函数的一阶逻辑中定义。规划师必须找到一系列行动(计划),该动作从当前状态带到了期望的目标状态。纯粹的物理描述可以通过部分有序的语法式结构(分层任务网络或HTN)进行增强,描述专家知识,或实用,法律或操作要求。在本次演讲中,我将使用符号方法来调查各种自动得出计划的方法。这些符号方法 - 从某种意义上说 - 将计划问题转化为其他,更简单的符号代表,并推理了这些方法,以找到计划。作为这些方法的基础,我首先将在计划中介绍相关的理论结果。首先,我将讨论规划形式主义的表现力(Houler等人2014; Houler等。2016)和第二,HTN计划的计算复杂及其相关任务,例如HTN计划验证,计划修改和计划识别(Behnke,Houler和Biundo 2015; Behnke等; Behnke等人2016)。基于这些理论结果,我将开发为什么基于SAT的HTN计划以及如何进行基于SAT的HTN计划。为此,我将在顶级会议上调查我的几个公开(Behnke,Houler和Biundo 2017,2018,2019a,b; Behnke等人。接下来,我提出了表达以SAT(Houler and Behnke 2022)的升级经典计划的想法。2020; Behnke 2021) - 在其中,我开发了一个基于SAT的HTN问题计划者,包括找到最佳计划以及接地的能力,以作为预处理步骤。由此产生的计划是第一个基于SAT的计划者 - 事实证明,在出版时表现出了高效且优于所有其他提起的计划者。值得注意的是,Lisat是第一位计划者(被解除或扎根),仍然是唯一一个解决具有挑战性的有机合成基准的计划者,甚至可以证明所有计划的最佳性。最后,我介绍了具有象征性表示的计划概念(Behnke和Speck 2021; Behnke等人。2023) - 使用二进制决策图(BDD)紧凑地编码大量状态。使用BDD注释的finenite自动机的组合,我们可以结构
摘要 量子退火是一种计算方法,其中优化和机器学习问题被映射到受量子涨落影响的物理实现的能量景观中,允许利用这些涨落来帮助找到世界上一些最具挑战性的计算问题的解决方案。最近,由于构建了基于通量量子比特的大规模量子退火设备,该领域引起了广泛关注。这些设备已经实现了一种称为反向退火的技术,允许在本地搜索解决方案空间,并且已经测试了基于这些技术的算法。在本文中,我开发了一种量子退火器算法设计的形式化,我称之为“推理原语”形式化。这种形式化自然适合于表达结构上类似于遗传算法的算法,但退火处理器执行组合交叉/变异步骤。我演示了如何使用这些方法来理解已经实现的算法,以及这些控制与当前为提高量子退火器性能而进行的各种其他努力的兼容性。
本文提出了对知识表示与推理(KRR)与机器学习(ML)之间的会议点的初步调查,这两个领域在过去的四十年中已经很分开开发。首先,确定并讨论了一些常见的问题,例如所使用的表示类型,知识和数据的作用,缺乏或信息过多,或者需要解释和因果理解。然后,调查是在七个部分中组织的,涵盖了KRR和ML相遇的大多数领域。我们从有关学习和推理的文献中涉及典型方法的部分开始:归纳逻辑编程,统计关系学习和Neurosymbolic AI,其中基于规则的推理的思想与ML结合在一起。然后,我们专注于在学习中使用各种形式的背景知识,范围从损失功能中的其他正规化项到对齐符号和向量空间表示的问题,或者使用知识图来学习。然后,下一节描述了KRR概念如何对学习任务有益。例如,可以像发表数据挖掘的那样使用约束来影响学习模式。或在低射击学习中利用语义特征,以弥补缺乏数据;或者我们可以利用类比来学习目的。相反,另一部分研究了ML方法如何实现KRR目标。例如,人们可以学习特殊类型的规则,例如默认规则,模糊规则或阈值规则,或特殊类型的信息,例如约束或偏好。本节还涵盖正式概念
在一个上下文中似乎很明显的话,如果该上下文发生变化,则可以具有完全不同的含义。11尽管已经广泛研究了与上下文相关的推论,但一个基本问题仍然存在:12大脑如何同时推断感觉输入的含义和基本的13个上下文本身,尤其是当上下文在变化时?在这里,我们研究了灵活的感知分解14个 - 能够迅速适应而无需反复试验的上下文转移的能力。我们在动态环境中引入了15个新颖的变更检测任务,需要跟踪潜在状态和16个上下文。我们发现,小鼠表现出对潜在上下文的第一审判行为适应,而不是推理而不是奖励反馈。通过在可观察到的马尔可夫决策过程中得出贝叶斯最佳政策,我们表明,快速适应从内部信念状态的顺序19个更新中出现。此外,我们还表明,通过20枚强化学习训练的人工神经网络实现了近距离的性能,从而在其复发性动态中实现了类似贝叶斯推理的21种机制。这些网络开发了灵活的内部代表 - 22个tations,可以实时调整推理模型。我们的发现建立了灵活的23感知推断,作为认知灵活性的核心原理,为在不确定环境中的适应性行为提供了计算和24个机械性见解。25
Econ BC1003:经济推理简介 讲师:Belinda Archibong 教授 办公室:1003 Milstein Center 办公时间:通过 Zoom:每周二美国东部时间上午 8 点至 10 点和下午 5:15 至下午 6:15。美国东部时间上午 8 点至 9 点报名,上午 9 点至 10 点和下午 5:15 至 6:15 免费入场:详情见下文 办公时间政策:美国东部时间星期二上午 8 点至 9 点,请在此处报名:https://www.signupgenius.com/go/10c0b4eaaaa22abfa7-professor10 并通过 Zoom 进行 15 分钟时段,美国东部时间上午 9 点至 10 点和下午 5:15 至 6:15 免费通过 Zoom 入场 所有办公时间的注册 Zoom 链接在这里:提前注册参加此次会议:https://columbiauniversity.zoom.us/meeting/register/tJItdeGprzksGtZE eZtzBF7OddJZitngOycM 注册后,您将收到一封确认电子邮件,其中包含有关加入会议的信息。如果您无法按预定时间到达,请务必提前 24 小时取消预订。这也是对您的同学的一种尊重。电子邮件:ba2207@columbia.edu 助教 (TA):Hanin Khawaja TA 的电子邮件:khawh820@newschool.edu TA 办公时间:每周五上午 11 点至下午 1 点(美国东部时间),Zoom 和预约
摘要:量子计算在实现过程中不可避免地会存在缺陷。这些缺陷来自各种来源,包括硬件级别的环境噪声以及量子算法设计者引入的近似实现,例如低深度计算。鉴于关系逻辑在程序推理中的显著优势以及评估量子程序在其理想规范和不完美实现之间的稳健性的重要性,我们设计了一个证明系统来验证量子程序的近似关系性质。我们通过对著名的量子傅里叶变换低深度近似进行首次形式化验证,证明了我们方法的有效性。此外,我们验证了重复直到成功算法的近似正确性。从技术角度来看,我们开发了近似量子耦合作为研究量子程序近似关系推理的基本工具,这是概率程序中广泛使用的近似概率耦合的新颖概括,回答了先前提出的射影谓词的开放性问题。
大语言模型(LLM)批评和完善推理的能力对于他们在评估,反馈提供和自我完善中的应用至关重要。本文介绍了C ritic B Ench,这是一个综合基准,旨在评估LLMS批评和纠正其跨各种任务的推理的能力。c ritic b ench包括五个推理领域:数学,commensense,象征性,编码和算法。它编译了15个数据集,并结合了来自三个LLM家族的重音。利用C ritic b ench,我们评估和剖析了17个LLM在生成,批评和校正推理中的表现,即GQC推理,并分析影响LLM批判性推理的关键因素。我们的发现揭示了:(1)GQC能力中的线性关系,以批判性的训练显着增强了表现; (2)依赖于任务和校正效率的任务变化,面向逻辑的任务更适合纠正; (3)随着模型大小增加而减小的GQC知识不一致; (4)一种有趣的模型间批判模式,在批评较弱的模型方面,更强大的模型更能更好,而较弱的模型可以超越其自我评价中的更强的模型。我们希望这些对LLM的细微批评的见解将进一步促进LLM批评和自我改善1。