我们引入了 N ATURAL P LAN ,这是一个自然语言中的现实规划基准,包含 3 个关键任务:旅行规划、会议规划和日历安排。我们将评估重点放在 LLM 的规划能力上,并提供关于任务的完整信息,方法是将 Google 航班、Google 地图和 Google 日历等工具的输出作为模型的上下文。这样就无需使用工具使用环境来评估规划上的 LLM。我们观察到 N ATURAL P LAN 是针对最先进模型的具有挑战性的基准。例如,在旅行规划中,GPT-4 和 Gemini 1.5 Pro 分别只能实现 31.1% 和 34.8% 的解决率。我们发现,随着问题复杂性的增加,模型性能急剧下降:当有 10 个城市时,所有模型的性能都低于 5%,这凸显了 SoTA LLM 在自然语言规划方面存在巨大差距。我们还对 N ATURAL P LAN 进行了广泛的消融研究,以进一步阐明自我校正、少量泛化和具有长上下文的上下文规划等方法对改进 LLM 规划的 (不) 有效性。
我们旨在评估大型语言模型(LLMS)进行具体的决策。尽管大量的工作一直在利用LLM在体现的环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常用于不同的域,用于不同的目的,并基于不同的输入和输出。此外,现有的评估倾向于仅依赖最终的成功率,因此很难确定LLM中缺少什么能力以及问题所在的地方,进而有效地和选择性地利用LLMS的药物。为了解决这些限制,我们提出了一个广义接口(e Mboded a gent i nterface),该界面支持基于LLM的模块的各种任务和输入输出规格的形式化。Specifically, it allows us to unify 1) a broad set of em- bodied decision-making tasks involving both state and temporally extended goals, 2) four commonly-used LLM-based modules for decision making: goal interpre- tation, subgoal decomposition, action sequencing, and transition modeling, and 3) a collection of fine-grained metrics that break down evaluation into error types, such as hallucination errors, affordance errors, and various计划错误的类型。总体而言,我们的基准对LLMS在不同子任务中的性能进行了全面评估,从而指出了LLM驱动的体现体现的AI系统的优势和劣势,并提供了对LLM在体现决策中的有效和选择性使用的见解。
分析临床试验数据对于评估新疗法的功效和安全性至关重要。传统上,此过程需要在生物医学,临床研究,生物统计学和数据科学方面的专业专业知识,通常使其劳动密集型,耗时且昂贵[1]。对于缺乏数据分析培训的临床医生和研究人员,复杂的统计要求可能会成为重大障碍,从而导致将研究结果转化为临床实践的延迟。以大数据集和多个终点为特征的现代临床试验的复杂性日益加剧,加剧了这些挑战[2]。临床试验越来越依赖的不同原始和次要数据源的整合进一步强调了对处理复杂的,异质数据的先进分析工具的需求。介入的临床试验依赖于严格的协议下的一致记录保存,涉及多个学科的专家,包括 - 疾病生物学,专科临床护理,毒理学,转化科学,生物统计学,生物分析科学,监管事务,监管事务和生物医学伦理学。每个领域都为试验设计提供了重要的要素,以确保试验的各个方面都符合监管标准和科学严格的严格性,以产生有关治疗功效和安全性的证据。
本文介绍了我们参加FinCausal 2025 Compeition的方法和发现(Moreno-Sandoval等人。,2025),解决了从财务文件中得出的因果问题,特别是英语和西班牙年度报告。与基于BERT的代币分类(例如基于BERT的提取方法)相比,我们研究了生成模型(例如Llama)的有效性。虽然迅速的优化和很少的学习提供了一些改进,但它们不适合持续超过Fincausal的提取方法,并且患有hAlu take。相比之下,微调生成模型被证明对于最小化的幻觉和实现了卓越的表现至关重要。使用我们的微调多语言模型完成这两个任务,我们的表现要优于我们的外来和单语言方法,在比赛中获得了西班牙语的最高成果,而在比赛中获得了第二好的结果。我们的发现表明,微调的大语言模型非常适合复杂的财务叙事中的因果问答,提供了强大的多语言帽子,并有效地减轻了幻觉。
因果推断广泛应用于社会科学,以分析特定治疗的影响。因果推理工具依赖于事先发现基本因果图,这是一个称为因果发现的过程。传统上,构建因果图取决于专家领域知识。但是,嵌入大型语言模型(LLMS)中的丰富知识提供了一种有希望的选择。尽管如此,仅LLMS在推断完整的因果图方面的表现很差,这主要是因为它们无法说明因果图的定向无环性。为了解决这一限制,我们提出了一种新颖的方法,将LLM与统计因果发现算法相结合,以更好地利用LLM的专家样能力。实验结果表明,所提出的方法显着提高了因果序的准确性,并有效地减少了下游因果效应估计任务中的错误。
摘要本文概述了第七次关于需求工程的自然语言处理(NLP4RE)的主题演示文稿(NLP4RE),涉及使用生成大语言模型(LLMS)来解决需求工程(RE)任务。它强调了仅解码器llms的变革性影响,例如GPT等模型,包括RE,包括RE,因为它们具有出色的语言理解和发电能力。讨论集中在仅解码器的LLM如何革新需求启发,规范和验证过程中,可能会重塑RE景观。该论文构成了两个主要部分:第一个探讨了仅解码器模型在自动化任务中的应用,强调了更丰富的输出和新颖的交互范式,而第二部分则强调了精确要求在与这些模型,在与这些模型之间进行有效提示,绘制与这些模型的有效提示,绘制与这些模型的相互作用,绘制Pernepieication技术和提示技术的促进策略的关键作用。
对应的电子邮件: * Archu.payal@gmail.com接收到:2023年11月5日接受:2024年1月25日发布:2024年3月7日摘要:变形金刚的出现是自然语言处理(NLP)领域的变革性变化(NLP),技术在理解和人类语言方面变得相当像人类的人类一样。本文强调了生成AI的影响,特别是GPT等大型语言模型对NLP的影响。该分析介绍了为变压器体系结构加油的原型单元,并注意了其对复杂语言任务的应用,并从效率和可扩展性角度提出了优势。但是,证据突出了MT,文本摘要和SA与基线NLP模型的实质进展。因此,这项工作强调了使用基于变压器的LLM系统作为发展NLP领域的手段的关键作用,并可以为开发更自然和直观的人类计算机相互作用而奠定基础。关键字:自然语言处理(NLP),变压器,大语言模型(LLMS),注意机制,机器翻译,情感分析。1。简介自然语言处理已面临人类语言的复杂性,并且未能准确地理解和组织文本。引入变压器模型的引入通过引入一种新的体系结构来改变NLP的景观[1]。这是围绕注意机制实现的,该机制允许在广泛的NLP任务中对模型性能进行重大改进。
为了回答这个问题,我们介绍了一种基于LLM的新型方法,该方法通过对宏观经济和市场情感数据的综合分析来强调顶级部门分配。现有方法包含各种数据源,包括情感和基本原理,但它们通常集中于对单个证券的自下而上分析。我们的框架利用LLMS系统地处理和合成多个数据流(包括政策文档,经济指标和情感模式),从而根据市场条件对部门分配的动态调整。通过自动化这些宏观财务关系的提取和解释,我们的框架通过主要自上而下的镜头增强了部门分配策略的响应能力。这提供了一种更系统的方法来捕捉情感驱动的价格变动,从而为扇区级别的投资组合结构提供了新的见解,以补充传统的安全级别分析。
迅速的进步和广泛接受人工智能(AI)系统突出了一个紧迫的要求,以理解与AI相关的能力和潜在风险。鉴于AI研究中Arabic的语言复杂性,文化丰富性和代表性不足的状态,因此需要重点关注大型语言模型(LLMS)的效果和安全性。尽管他们的发展进展有所进展,但缺乏全面的信任评估基准,这在准确评估和证明阿拉伯语提示时提出了LLM的安全性。在本文中,我们介绍了Aratrust 1,这是阿拉伯语LLM的第一个全面的可信赖台。Aratrust包括522个人工编写的多项选择问题,这些问题解决了与真理,道德,隐私,非法活动,人类健康,身体健康,身体健康,不公平和冒犯性语言有关的各种维度。我们评估了针对我们的基准测试的一组LLM,以评估其可信度。gpt-4是最值得信赖的LLM,而开源模型(特别是ACEGPT 7B和JAIS 13B)努力在我们的基准测试中取得60%的分数。
对手可以提示该模型提取出来的姓名,电子邮件地址,电话号码或其他敏感信息,以实现恶意目的,如图1所示。一般数据保护法规(欧洲议会和欧盟理事会,2016年)赋予个人被遗忘的权利(RTBF),这可能会限制其个人信息的不同和间接商业使用。这种情况导致我们提出问题:我们如何使LLMS能够保护特定个人的私人数据以减轻隐私风险?在LLM的昂贵培训过程中,将所有私人信息从培训数据中移动并从头开始重新训练它不是一个实用的解决方案(Lison等人。,2021; Kandpal等。,2022;刘等。,2024a)。因此,研究人员旨在采用机器学习(MU)作为替代方案,旨在消除不受欢迎的数据和相关模型的影响而无需重新培训的影响(Cao和Yang,2015; Bourtoule et e;,2021; Jang等。,2022; Si等。,2023;张等。,2023a; Maini等。,2024;刘等。,2024a)。为了评估MU甲基的性能,一些研究已经尝试了问题 -