摘要 学者们认为人工智能可以产生真正的新颖性和新知识,反过来,人工智能和计算认知模型将取代人类在不确定情况下的决策。我们不同意。我们认为人工智能基于数据的预测不同于人类基于理论的因果逻辑和推理。我们以大型语言模型 (LLM) 为例,强调了几十年来将计算机与大脑作为输入输出设备进行类比的问题。与人工智能强调的信息处理和基于数据的预测相比,人类认知最好概念化为一种基于理论的因果推理。人工智能使用基于概率的方法来获取知识,并且在很大程度上是回顾性和模仿性的,而人类认知是前瞻性的,能够产生真正的新颖性。我们引入“数据信念不对称”的概念来强调人工智能与人类认知之间的差异,并以“重于空气的飞行”为例来说明我们的论点。基于理论的因果推理为人类提供了一种认知机制,使人类能够“干预”世界并进行定向实验以生成新数据。在整篇文章中,我们讨论了我们的论点对于理解新颖性、新知识和不确定性决策的起源的影响。关键词:认知、人工智能、预测、因果推理、决策、策略、基于理论的观点
D.1 简介 根据美国内政部土地管理局 (BLM) 国家环境政策法案 (NEPA) 手册 (H-1790-1),合理可预见的未来行动 (RFFA) 是已有决定、资金或正式提案或基于已知机会或趋势 (BLM 2008) 极有可能实施的行动。RFFA 是根据环境质量委员会的要求,为估算未来影响(累积影响和其他影响)而做出的预测。土地管理机构(包括 BLM 和美国农业部森林服务局 (Forest Service))已确定了资源累积影响分析区域 (CEAA) 内的特定项目,如环境影响声明 (EIS) 第 3 章所述。表 D-1 列出了 RFFA 的名称以及 CEAA 内每个项目的简要说明。
OpenAI 于 2022 年 11 月推出 ChatGPT,这是人工智能领域的一次“大爆炸”。以前从未有过一种人工智能工具可用于如此多的领域,并且如此容易用于如此多不同的任务。它能够轻松地为各种任务生成完美的自然语言,例如总结文档、撰写有关任何给定主题的文章、写诗、起草旅行计划、概述演示文稿,甚至解决计算机编程练习,这真是令人惊叹。而所有这些基本上都是通过简单的技术来预测单词序列中最可能的下一个单词。因此,很容易认为,传统的符号人工智能对推理和论证的研究现在已经过时,让计算机参与推理和论证的正确方法是使用基于大型语言模型的生成人工智能。本文讨论了法律论证的这一问题,这是计算论证的一个重要应用领域。已经对大型语言模型 (LLM) 在法律推理任务中的表现进行了多项实验。本文回顾了一些此类实验,并更广泛地讨论了生成式人工智能参与法律论证的潜力。我们首先在第 2 部分简要总结人工智能和法律在法律论证方面的研究。然后,我们在第 3 部分进行一些方法论观察,并在第 4 部分回顾最近将 LLM 应用于法律推理的实验。然后,我们在第 5 部分讨论计算论证领域可以从这些研究中学到什么,最后得出结论。
大语言模型(LLM)在需要复杂推理的自然语言任务中表现出了显着的功能,但是它们在交互式环境中的代理,多步骤推理中的应用仍然是一个艰难的挑战。静态数据集上的传统监督预训练在实现在Web Navigation(例如Web Navigation)中执行复杂决策所需的自主代理能力时跌落。先前试图通过对精选的专家演示进行微调的微调来弥合这一差距 - 通常会遭受更复杂的错误和有限的勘探数据,从而导致了次优政策的结果。为了克服这些挑战,我们提出了一个框架,将带有指导的蒙特卡洛树搜索(MCTS)搜索与自我批评机制和使用直接优先优化(DPO)算法的非政策变体对代理相互作用进行迭代微调。我们的方法使LLM代理可以从成功和失败的轨迹中有效学习,从而改善其在复杂的多步推理任务中的概括。我们在网络商店环境(一个模拟的电子商务平台)中验证了我们的方法,在该平台上,它始终超过行为的克隆和加强基线,并在配备了进行在线搜索的能力时击败平均人类绩效。在实际预订方案中,我们的方法论将Llama-3 70B型号的零拍摄性能从18.6%升至81.7%的成功率(相对增长340%),经过一天的数据收集,并在线搜索中进一步增加到95.4%。我们认为,这代表了自主代理人能力的实质性飞跃,为在现实世界中更复杂和可靠的决策铺平了道路。
[t]这确实可能是应采用谨慎的保守态度来授予许可证的情况。但是,这并不意味着在产生丝毫怀疑或疑虑时,应用程序实际上应自动拒绝。正如我之前所说的,正如布莱克(Black)案中所述,这样的论点的逻辑延伸将是没有授予任何新的许可证,以最大程度地减少伤害。适当的基础应该存在,以证明拒绝许可申请的裁定合理的合理性。我认为,本案中缺少这样的基础。在以后的某个日期,与此相关的媒体密度有关的问题和材料可能会提供更多的研究和材料
摘要 - 在视觉和语言导航(VLN)任务中,必须按照自然语言指令导航到目的地。虽然基于学习的方法一直是对任务的主要解决方案,但他们遭受了高培训成本和缺乏解释性的困扰。最近,由于其强大的概括能力,大型语言模型(LLMS)已成为VLN的有前途的工具。但是,现有的基于LLM的方法面临着记忆构建和导航策略多样性的限制。为了应对这些挑战,我们提出了一套技术。首先,我们引入了一种维护拓扑图的方法,该拓扑图存储导航历史记录,保留有关观点,对象及其空间关系的信息。此地图也充当全球动作空间。此外,我们提出了一个思想模块的导航链,利用人类导航示例丰富了导航策略多样性。最后,我们建立了一条管道,将导航记忆和策略与感知和动作预测模块集成在一起。Reverie和R2R数据集的实验结果表明,我们的方法有效地增强了LLM的导航能力并提高导航推理的解释性。
代码提供了一种一般的句法结构来构建复杂的程序并与代码解释器配对时执行精确的计算 - 我们假设语言模型(LMS)可以利用代码编写来提高思想链推理不仅用于逻辑和算术任务(Chen等人 ,2022; Nye等。 ,2021;奥斯汀等。 ,2021),但也适用于语义(尤其是两者的混合物)。 例如,考虑提示LM编写代码,以计算其在论文中检测到的讽刺的次数:LM可能难以编写“ destect_sarcasm(string)”可以由解释器执行的实现(处理边缘案例将是不可公司执行的)。 但是,如果LMS不仅编写代码,还可以通过生成“ destect_sarcasm(string)”的预期输出来选择性地“仿真”解释器,那么LMS仍可能会产生有效的解决方案。 在这项工作中,我们提出了代码链(COC),这是一种简单而有效的扩展,可改善LM代码驱动的推理。 关键想法是鼓励LMS在程序中格式化语义子任务作为灵活的伪代码,而解释器可以明确地捕获未定义的行为并用LM进行模拟(作为“ LMULATOR”)。 实验表明,代码链的表现优于各种基准的思想链和其他基线。在大基础上,代码链可实现84%,比思想链增长了12%。 简而言之,COC扩大了LMS可以通过“代码思考”来回答的推理问题的范围。,2022; Nye等。,2021;奥斯汀等。,2021),但也适用于语义(尤其是两者的混合物)。例如,考虑提示LM编写代码,以计算其在论文中检测到的讽刺的次数:LM可能难以编写“ destect_sarcasm(string)”可以由解释器执行的实现(处理边缘案例将是不可公司执行的)。但是,如果LMS不仅编写代码,还可以通过生成“ destect_sarcasm(string)”的预期输出来选择性地“仿真”解释器,那么LMS仍可能会产生有效的解决方案。在这项工作中,我们提出了代码链(COC),这是一种简单而有效的扩展,可改善LM代码驱动的推理。关键想法是鼓励LMS在程序中格式化语义子任务作为灵活的伪代码,而解释器可以明确地捕获未定义的行为并用LM进行模拟(作为“ LMULATOR”)。实验表明,代码链的表现优于各种基准的思想链和其他基线。在大基础上,代码链可实现84%,比思想链增长了12%。简而言之,COC扩大了LMS可以通过“代码思考”来回答的推理问题的范围。
认知科学家先驱3D空间推理是所有智力过程的基础。多模式大型语言模型(MLMS)由于对2D图像的印象令人印象深刻而被广泛采用,已被证明缺乏3D空间推理。对这些模型赋予的精确3D空间功能的评估有限。现有的基准用于探测MLMS中空间理解的基准主要集中于粗级空间意识(例如在左侧的左侧),或在预测给定对象查询的边界框时。相反,我们希望对模型对整个场景的语义和空间理解进行更全面的评估。因此,我们提出了一个基准R2D3,其中MLM的任务是将2D图像表示为具有精确3D位置和姿势的一组语义资产,该姿势可以准确地重建图形引擎中的3D场景。“通过综合分析”的这一任务要求该模型对组成场景及其精确3D相对位置的元素有全面的了解。我们的基准包括AI2THOR环境中的12K室内场景,并且与几个下游应用程序(例如体现的AI,空间推理和导航任务)兼容。使用我们的基准测试,我们探索了鼓励精确空间推理的MLM的调整技术。出乎意料的是,我们发现在基准的训练集上进行的常规微调虽然足以理解语义,但不足以了解场景中对象的精确3D位置和姿势。包括深度或通过标记图像中的点以及在训练期间包括其3D坐标(包括其3D坐标)的深度或传达精确的摄像机场取向,使该模型可以在测试时改进3D空间估计。我们希望R2D3基准测试将有助于探索探索设计选择的进步,从而改善对MLMS的精确3D空间理解。
混合现实越来越多地用于封闭房屋和办公空间以外的移动设置。此移动性引入了适应不同上下文的用户界面布局的需求。但是,现有的自适应系统仅针对静态环境而设计。在本文中,我们介绍了centerAdapt,该系统通过在共享环境中考虑环境和社交线索来将混合现实UI的混合现实UIS调整到现实世界中。我们的系统包括对UI适应的感知,推理和优化模块。我们的感知模块标识用户周围的对象和个人,而我们的推理模块则利用视觉和语言模型来评估交互式UI元素的位置。这种调整的布局不会阻碍相关的环境线索或干扰社会规范。我们的优化模块会生成混合的现实接口,以解释这些考虑以及时间约束。进行评估,我们首先验证了与人类专家用户相比,我们的推理模块评估UI上下文的能力。在一项在线用户研究中,我们建立了centerachAdapt为混合现实生成上下文意识的布局的能力,在此效果优于以前的自适应布局方法。我们以一系列应用程序和场景结束,以证明centerachAdapt的多功能性。