摘要 近年来,人工智能研究已显示出造福人类和社会的巨大潜力。尽管人工智能在分类和模式识别任务中的表现往往优于人类,但它在需要常识推理的复杂任务(如自然语言理解)方面仍然举步维艰。在这种情况下,当前人工智能模型的主要限制是:依赖性、可重复性、可信度、可解释性和可解释性。在本文中,我们提出了一个基于常识的神经符号框架,旨在克服情绪分析背景下的这些问题。具体而言,我们采用无监督和可重复的亚符号技术(如自回归语言模型和核方法)来构建可信的符号表示,将自然语言转换为一种原始语言,从而以完全可解释和可说明的方式从文本中提取极性。
生成式人工智能辅助 (GAIA) 政策 我们欢迎人工智能语言生成工具(统称为大型语言模型或 LLM)进入学习过程,以保持公平、优化学生技能培养和尊重相关利益相关者的观点。这些包括我们作为渴望学习和建立事业的学生的观点,以及送我们上大学的家人、负责教授我们重要技能的教授、有责任用文凭证明我们能力的大学、因为我们的能力和品格而投资于我们的未来雇主以及缺乏宝贵资源特权的同事的观点。为此,GAIA 政策对 LLM 的包容性方法采取了一些常识性限制。
在考虑了所有收到的评论后,我们将在宣布CY 2024 MA人力率以及C部分和D部分付款政策(CY 2024税率公告)中完成政策,这些政策反映了CMS致力于确保Medicare患者获得公平,负担得起,高质量和全人关怀的人,尤其是最易于脆弱的人。CY 2024税率公告中的政策是我们努力确保MA计划满足所有受益人的医疗保健需求的重要一步,同时提高了Medicare计划的质量和长期稳定性。CY 2024费率公告最终确定了更新的风险调整模型的重要过渡,该模型实现了一组常识性,基于临床的技术更新,以使MA付款保持最新状态并提高对MA计划的付款准确性。
近期问答研究的蓬勃发展产生了大量的事实阅读理解 (RC) 和常识推理数据集。将它们结合起来提出了一种不同类型的任务:不仅要确定文本中是否存在信息,还要确定是否可以对缺失信息做出有把握的猜测。我们提出了 QuAIL,这是第一个结合基于文本、世界知识和无法回答的问题的 RC 数据集,并提供问题类型注释,使给定的 QA 系统能够诊断推理策略。QuAIL 包含 4 个领域中 800 篇文本的 15K 多项选择题。至关重要的是,它提供了一般问题和特定于文本的问题,这些问题不太可能在预训练数据中找到。我们表明,QuAIL 对当前最先进的系统提出了巨大的挑战,与最相似的现有数据集相比,其准确率下降了 30%。
近期问答研究的爆炸式增长产生了大量事实阅读理解 (RC) 和常识推理数据集。将它们结合起来代表着一项不同的任务:不仅要确定文本中是否存在信息,还要确定是否可以对缺失信息做出有把握的猜测。我们提出了 QuAIL,这是第一个结合基于文本、世界知识和无法回答的问题的 RC 数据集,并提供问题类型注释,使给定 QA 系统能够诊断推理策略。QuAIL 包含 4 个领域 800 篇文本的 15000 个多项选择题。至关重要的是,它提供一般问题和特定于文本的问题,这些在预训练数据中不太可能找到。我们表明,QuAIL 对当前最先进的系统提出了巨大的挑战,与最相似的现有数据集相比,其准确率下降了 30%。
智能及相关学科。我们的研究涉及语言、逻辑和认知界面上“扎根表征”介导的人类行为多模态意义建构的理论、方法和应用理解 [ 1 ]。在这里,通过将知识表示和推理与视觉计算相结合的系统神经符号机制,声明性地介导扎根推理以实现协作自主具有特殊意义。预期的功能目的涵盖各种操作需求,例如可解释的多模态常识理解、用于通信和总结的多模态生成/合成、多模态解释引导的决策支持、多模态行为适应和自主以及多模态分析可视化。为实现这些操作需求而开发的方法和工具也必须与领域无关,并且它们既能满足在线/实时操作,也能满足不同应用场景中的事后操作(例如,参考 [ 2 ] 中在线神经符号绑架应用于自动驾驶领域的案例)。
A. Newell 和 HA Simon 是 20 世纪 50 年代末至 90 年代初新兴人工智能 (AI) 领域最具影响力的两位科学家。本文回顾了他们对该领域,即符号 AI 的重要贡献。他们的贡献主要在于他们寻求在人工智能或推理产品中实现通用智能和(常识)知识,这是他们与许多其他科学家共同开展的项目,但在他们看来,该项目在理论上基于符号系统的特殊概念及其产生的表征能力,特别是在知识方面。本文重点关注 1956 年至 1982 年期间,引用了早期和晚期文献,并试图揭示它们与当今最大的统一 AI 挑战的潜在相关性,即设计完全自主的人工智能代理(又称机器人),这些代理不仅理性且合乎道德,而且具有自我意识。
摘要。本文讨论了当前人工智能 (AI) 技术在解决将初等数学与常识推理相结合的应用题方面的能力和局限性。现有的 AI 系统都无法可靠地解决这些问题。我们回顾了使用 AI 自然语言技术开发的三种方法:直接输出答案、输出解决问题的计算机程序以及输出可以输入到自动定理验证器的形式化表示。我们回顾了一些为评估这些系统而开发的基准和一些实验研究。我们讨论了现有技术在解决此类问题方面的局限性。我们认为,目前尚不清楚这些局限性对于开发用于纯数学研究的 AI 技术是否重要,但它们对于数学应用很重要,并且对于开发能够阅读和理解人类编写的数学内容的程序可能也很重要。
LLM 生成的推理步骤可能不完整,因为它们模仿了预训练数据中日常交流中常见的逻辑跳跃:底层原理经常是隐含的(未说明的)。为了应对这一挑战,我们引入了 R ATIONALYST,这是一个基于对从未标记数据中提取的大量原理注释进行预训练的推理过程监督模型。我们从网络规模的未标记数据集(Pile)和推理数据集组合中提取了 79k 个原理,几乎无需人工干预。这种网络规模的推理预训练使 R ATIONALYST 能够在各种推理任务中一致地概括,包括数学、常识、科学和逻辑推理。经过 LLaMa-3-8B 微调后,R ATIONALYST 在 7 个代表性推理基准上将推理准确率平均提高了 3.9%。与 GPT-4 等明显更大的验证器以及在匹配训练集上进行微调的类似大小的模型相比,它还表现出了卓越的性能。1
技术的作用至关重要,并且一直在不断发展,使人类的生活更加轻松。世界目前正在经历第四次革命,这场革命以人工智能为基础。人工智能 (AI) 是在 20 世纪 50 年代末作为专家系统研究的一部分而开发的。这项研究基于这样的信念:如果人类可以解决常识问题,那么机器也可以。它试图用人工智能技术取代人类的能力。人工智能在各个领域的应用越来越多,这可以归因于其提高生产力和确保快速有效的解决问题的能力。该领域研究的顶峰是开发了一种真正的思考机器,称为“Machina Sapiens”,它可以像人类一样行动和推理。1 然而,这些特征被发现不足以实现智能思考。因此,添加了更多属性,例如沟通、内部知识、外部知识、目标驱动行为和创造力。2