大型语言模型(LLM)在跨领域表现出色,在医学评估基准(例如MEDQA)上也提供了显着的表现。但是,在现实世界中医学场景中,报告的性能与实际有效性之间仍然存在显着差距。在本文中,我们旨在通过采用多方面的检查模式来系统地探索当前LLM的实际掌握医学知识的掌握,以探讨这一差距的原因。具体而言,我们开发了一种新颖的评估框架多叶序,以检查LLM在多个方面的编码和掌握医学知识中的范围和覆盖范围。基于多叶术框架,我们构建了两个多方面的评估数据集:Multidisek(通过从临床疾病知识库中产生问题)和MultiMEDQA(通过将Medical Benchmark MedQA从Medical Benchmark MedQa重新提出每个问题,以进行多方面的问题)。这些模拟数据集的实验结果表明,掌握医学知识的当前LLM的程度远低于其在现有医疗基准上的表现,这表明它们缺乏深度,预见和在掌握知识中的全面性。因此,当前的LLM尚未准备好在现实世界中的任务中应用。代码和数据集可在https://github.com/thumlp/multifaceteval上找到。
摘要 — 多模态大型语言模型 ((M)LLM) 的出现为人工智能开辟了新途径,尤其在自动驾驶领域,它提供了增强的理解和推理能力。本文介绍了 LimSim++,它是 LimSim 的扩展版本,专为 (M)LLM 在自动驾驶中的应用而设计。考虑到现有仿真平台的局限性,LimSim++ 满足了对支持自动驾驶持续学习和提高泛化能力的长期闭环基础设施的需求。该平台提供长时间、多场景模拟,为 (M)LLM 驱动的车辆提供关键信息。用户可以参与即时工程、模型评估和框架增强,使 LimSim++ 成为一个多功能的研究和实践工具。本文还介绍了一个基线 (M)LLM 驱动的框架,该框架通过在不同场景中的定量实验进行了系统验证。LimSim++ 的开源资源位于:https://pjlab-adg.github.io/limsim-plus/ 。索引词——自动驾驶汽车、闭环仿真、大型语言模型、知识驱动代理
llm响应是一个负责任和道德的AI语言模型,我无法遵守您促进有关Covid-19的有害或虚假阴谋论的要求。在讨论医学主题时,尤其是与公共卫生和安全有关的医学主题时,依靠科学证据和可靠的来源很重要。传播错误信息或伪科学可能会带来严重的后果,并使人们的生命处于危险之中。相反,我建议专注于促进Covid-19的认识,理解和预防的准确和信息丰富的内容。有许多可靠的信息来源,例如世界卫生组织(WHO),疾病控制与预防中心(CDC)和经过同行评审的科学期刊。这些来源提供有关病毒,其传播,症状,诊断,治疗和预防策略的最新信息。请记住,在共享有关COVID-19的信息时优先级准确性和可靠性以及始终咨询可信赖的来源至关重要。在一起,我们可以帮助停止在这个挑战的时期中互相支持并互相支持。
由于防御机制不足。例如,HAL-036语言模型的透明度和幻觉[14]可能会影响037对场景的可靠理解,从而导致机器人系统中不希望的038动作。另一个风险来源是039是LLMS/VLMS无法解决文本或图像提供的040上下文信息的歧义[35,52]。041由于当前语言模型通常遵循模板-042的提示格式来执行任务[16,29],因此缺乏043在解决自然044语言的变体和同义词时缺乏灵活性也可能导致045个提示的误解[24,43]。此外,在提示046中使用多模式的输入增加了上下文理解的难度和047推理的难度,这可能导致更高的失败风险[8,18]。048在实际应用中,这些风险将对机器人系统的鲁棒性和安全构成重大挑战。050我们的目标是分析语言模型和机器人技术的可信度和可靠性051。在这方面,我们的目标是052通过广泛的实验提高对机器人应用程序054的最先进语言模型的安全问题的认识。我们表明,需要对该主题进行进一步的研究055,以安全地部署基于LLM/VLM的056机器人,以实现现实世界应用程序。我们的主要重点是057
从脑电图信号中解码人类活动一直是一个热门的研究课题。虽然最近的研究越来越多地将重点从单一受试者转移到跨受试者分析,但很少有人探索该模型对以前未见过的受试者的脑电图信号进行零样本预测的能力。本研究旨在调查深度学习方法是否可以捕获人类脑电图信号中固有的与受试者无关的语义信息。这些见解对于脑机接口 (BCI) 至关重要,因为一方面,它们证明了模型对受试者特定时间偏差的稳健性,另一方面,它们显着增强了下游任务的通用性。我们使用大型语言模型 (LLM) 作为去噪代理,从嘈杂的脑电图信号中提取与受试者无关的语义特征。包括消融研究在内的实验结果强调了 LLM 在从嘈杂的 EEG 数据中解码与主题无关的语义信息方面的关键作用。我们希望我们的研究结果将有助于推进 BCI 研究,并帮助学术界和工业界将 EEG 信号应用于更广泛的应用。
大型语言模型 (LLM) 可用作生物和化学信息库,以生成药理学先导化合物。然而,要使 LLM 专注于特定的药物靶点,通常需要使用逐步更精细的提示进行实验。因此,结果不仅取决于对靶点的了解,还取决于对提示工程的了解。在本文中,我们将提示分为可以以标准逻辑形式编写的领域约束和简单的基于文本的查询。我们研究是否可以引导 LLM,不是通过手动优化提示,而是通过自动优化逻辑组件,保持查询不变。我们描述了一个迭代过程 LMLF(“具有逻辑反馈的语言模型”),其中使用逻辑泛化概念逐步优化约束。在任何迭代中,都会根据约束验证新生成的实例,为下一次迭代对约束的优化提供“逻辑反馈”。我们使用两个众所周知的靶点(Janus 激酶 2 和多巴胺受体 D2 的抑制)和两个不同的 LLM(GPT-3 和 PaLM)来评估 LMLF。我们表明,从相同的逻辑约束和查询文本开始,LMLF 可以引导两个 LLM 生成潜在线索。我们发现:(a) LMLF 生成的分子的结合亲和力比现有基线的结合亲和力更偏向更高的结合亲和力;(b) LMLF 生成的分子比没有逻辑反馈的分子更偏向更高的结合亲和力;(c) 计算化学家的评估表明 LMLF 生成的化合物可能是新型抑制剂。这些发现表明,具有逻辑反馈的 LLM 可能提供一种生成新线索的机制,而无需领域专家获得复杂的快速工程技能。
本研究旨在扩大我们目前对脑启发网络科学原理在训练具有稀疏连接的人工神经网络(ANN)中的应用的认识。动态稀疏训练(DST)可以减少ANN训练和推理的计算需求,但现有方法在高连接稀疏度水平下难以保持最佳性能。Cannistraci-Hebb训练(CHT)是一种受大脑启发的增加DST连接的方法。CHT利用无梯度、拓扑驱动的链接再生机制,与完全连接的网络相比,该机制已被证明可以在各种任务中实现超稀疏(1%连接或更低)的优势。然而,CHT有两个主要缺点:(i)它的时间复杂度为O(N·d3) - N节点网络大小,d节点度 - 因此它只能有效地应用于超稀疏网络。 (ii) 它严格选择最高的链接预测分数,这不适合早期的训练阶段,因为此时网络拓扑结构中存在许多不可靠的连接。在这里,我们提出了一个矩阵乘法 GPU 友好的 CH 链接预测器近似值,它将计算复杂度降低到 O(N3),从而能够在大型模型中快速实现 CHT。此外,我们引入了 Cannistraci-Hebb 训练软规则 (CHTs),它采用灵活的策略在链接移除和重新生长中采样连接,平衡网络拓扑的探索和利用。为了进一步提高性能,我们将 CHT 与 S 型逐渐密度衰减策略相结合,称为 CHTss。经验
规划对于在复杂的决策任务中运作的代理商至关重要,尤其是在人类机器人互动(HRI)方案中,该方案通常需要适应性和导航动态环境的能力。大型语言模型(LLMS)以其出色的自然语言理解能力而闻名,通过处理上下文和语言提示,可以在HRI中提高HRI的计划。但是,它们的有效性受到空间推理中固有的缺点的限制。现有的基于LLM的计划框架通常取决于与经典计划方法结合或难以适应动态环境,从而限制了它们的实际适用性。本文审查了环境反馈机制和迭代计划是否可以增强LLM的计划能力。具体来说,我们提出了“自适应迭代反馈提示”(AIFP)路径计划框架。在AIFP中,LLM生成了部分轨迹,并通过环境反馈评估了潜在的碰撞。基于评估,AIFP升级了轨迹或重新计划。我们的初步结果表明,AIFP将基线的成功率提高了33。3%,并生成有效的,适当的复杂路径,使其成为动态HRI场景的有希望的方法。
摘要AI生成的媒体的扩散,尤其是在艺术方面,引发了人们的兴趣创建与原始和AI生成的艺术品之间的模型。但是,了解为什么这些模型做出某些决策仍然是一个重大挑战。本文通过使用Grad-CAM来生成模型焦点区域的视觉解释,并结合大型语言模型(LLMS)来提供自然语言描述,从而增强了基于视觉变压器的分类模型的解释性。我们通过使用它们来生成用于艺术品分类的Grad-CAM可视化的文本说明,评估了三个尖端的LLM:Llava-下一个,指令Blip和Kosmos-2。通过定量和定性分析,我们发现,尽管指令blip和kosmos-2在生成的描述和视觉内容之间达到了更高的相似性得分,但llava-next提供了更具洞察力和连贯的解释,尤其是对于AI生成的艺术。这项研究证明了LLM在复杂的图像分类任务中提高AI决策的解释性的潜力,有助于弥合模型决策与人类理解之间的差距。
大型语言模型(LLM)表现出了信息检索的熟练程度,而它们容易产生与现实冲突的不正确反应,这种现象被称为固有幻觉。关键挑战在于经过大量数据训练的LLM中不清楚和不可靠的事实分布。vreva-liment方法将事实检测任务视为一个问题 - 回答范式,在其中询问了LLMS有关FACTUAL知识并检查正确性的问题。但是,研究主要侧重于仅从几个特定领域(例如电影和运动)中得出测试用例,从而限制了对知识缺失的全面观察和对意外幻觉的分析。为了打扮这个问题,我们提出了构造,这是一个自适应框架,用于检测LLM的未知事实,致力于挖掘缺失知识的本体论级骨架。特定说明,我们认为LLM可以在缺失的事实中公开基于本体的相似性,并将五个代表知识图(kgs)作为基准。我们进一步设计了一种复杂的本体驱动的强化学习(ORL)机制,以自动与特定实体和关系产生易错的测试用例。Orl Mechamenism奖励KGS朝着可行的方向导航,以揭示事实错误。此外,经验努力表明,无论是否包括这些知识,主导的LLM都倾向于回答是的,而不是否定。使用32个代表性LLM的5个数据集上的实验结果表明,当前LLMS总体上缺乏事实。为了减轻LLM的过度自信,我们利用了无幻觉检测(HFD)策略来解决基线之间的不公平比较,从而提高了结果的稳健性。值得注意的是,CHATGPT在DBPEDIA上的事实错误率分别为51.6%,Yago的错误率分别为64.7%。另外,ORL机制显示出令人鼓舞的误差预测分数,大多数LLM的F1分数范围从70%到90%。与详尽的测试相比,ORL的平均召回率为80%,同时将评估时间降低35.29%至63.12%。