本文提出了一个新的工具包,用于评估思维理论(TOM),通过一阶和二阶错误信念(FB)任务。该工具包包括一阶和二阶FB任务的口头和非语言版本;口头版本目前可提供希腊语和德语。工具包中的方案对于可能影响性能的因素是平衡的,例如FB的原因(欺骗,位置变更,意外内容)。为了验证我们的工具包,我们在两项研究中测试了神经型成年人在非语言和言语版本中的表现:研究1,有50名母语的德语和研究2,有50位母语的希腊语者。两项研究的数据产生相似的结果。参与者在所有条件下表现良好,在第二阶FB条件下,在第二阶情况下表现出的困难略多,而在非语言中比言语版本的任务版本要多。这表明该任务是神经型成年人敏感范围的高端,预计在汤姆(Tom)中有困难的儿童和人群的敏感范围内。诸如视频范围内的欺骗和结果类型之类的因素并没有影响神经型成年人的行为,这表明该任务与这些因素没有任何混淆。言语和非语言版本的表现顺序对性能有影响。从口头版本开始的参与者比从非语言版本开始的参与者略好。这表明神经型成年人在执行非语言TOM任务时使用语言介导TOM表现并从语言介导的任务中学习。得出结论,我们的结果表明,工具包中的场景具有可比的困难,可以自由地组合以将未来研究的需求与神经典型的儿童和自闭症患者以及其他人群以及已被证明在汤姆(Tom)中有很强的人群相匹配。
自然语言解释(NLE)是阐明大语模型(LLM)决策背后推理的案例。已经开发了许多技术来使用LLM生成NLS。但是,像人类一样,LLM可能并不总是在第一次尝试时产生最佳的NLE。受到人类学习过程的启发,我们引入了C Ross -R Efine 1,该1分别通过部署两个LLM作为生成器和评论家来采用角色建模。代理人输出了第一个NLE,然后使用评论家提供的反馈和建议来完善这种易于解释。c ross -r efine不需要任何有监督的培训数据或附加培训。我们通过自动和人类评估使用三个最新的开源LLM验证了三个NLP任务中的C ROSS -R efine。我们选择S ELF -R Efine(Madaan等人,2023)作为基线,它仅利用自我反馈来完善解释。我们从自动评估中的发现和用户研究表明,C ROSS -R efine的表现优于S ELF -R efine。同时,C ross -r efine可以使用较少的功能LLM有效地执行,而S Elf -R efine仅通过ChatGpt产生强劲的结果。此外,我们进行了一项消融研究,以评估反馈和建议的重要性。他们俩在完善解释中起着重要作用。我们在英语和德语的双语数据集上进一步评估了c ross -r efine。
人工神经网络已成为人类语言处理的计算上可行的模型。对这些模型的一个主要批评是,它们接收的训练数据量远远超过人类在语言学习过程中接收的数据量。在这里,我们使用两种互补的方法来探究训练数据量如何影响模型捕捉人类对句子的 fMRI 反应的能力。首先,我们根据 fMRI 基准评估了用 100 万、1000 万、1 亿或 10 亿个单词训练的 GPT-2 模型。我们认为 1 亿个单词的模型在训练数据量方面在发展上是可行的,因为这个数量与儿童在生命的前 10 年估计接触到的数据量相似。其次,我们测试了在 90 亿个标记数据集上训练的 GPT-2 模型的性能,以在训练的不同阶段达到人类基准上最先进的下一个单词预测性能。通过这两种方法,我们发现:(i) 在发展上可行的数据量上训练的模型在捕捉句子的 fMRI 反应方面已经实现了接近最大的性能。此外,(ii) 较低的困惑度(衡量下一个单词预测性能的指标)与与人类数据的更强的一致性相关,这表明经过足够训练以实现足够高的下一个单词预测性能的模型也会获得可以预测人类 fMRI 反应的句子表征。同时,这些发现表明,尽管一些训练对于模型的预测能力是必要的,但发展上可行的训练量(约 1 亿个单词)可能就足够了。
尽管具有英语主导性的大语言模型的进步,但低资源语言仍需要进一步的开发才能增强全球可访问性。代表这些语言的主要方法是单语和多语言预读。单语言预告片由于硬件要求而昂贵,而且多语言模型在语言中通常具有不平衡的性能。这项研究通过调整大型语言模型(接受英语培训)来探讨一种替代性,从而探讨了低资源语言。我们评估各种策略,包括持续的培训,教学微调,特定的微调和词汇扩展。结果表明,持续的训练可以证明语言理解,如困惑得分所反映,而特定于任务的调整通常会增强下游任务的性能。但是,扩展词汇并没有显示出实质性的好处。此外,虽然较大的模型通过几次调整来改善任务性能,但在适应时,多语言模型的形式比单语的同行更糟。
摘要 - 及时工程中的预测提供了减轻大语模型(LLMS)文化幻觉的重要潜力。提示的战略表述,与深厚的文化和语言见解相结合时,可以在非英语环境中尤其是LLM的准确性和文化敏感性。本文探讨了在三个主要LLMS(Openai Chat-gpt,Google Gemini和Anthropic Claude)中及时工程的应用,阐明了量身定制的提示如何有效地减少文化偏见并改善用户互动。通过案例研究和比较分析,研究确定了最佳实践,并为进一步发展提供了战略建议。这些发现强调了在AI中持续创新和道德考虑的重要性,以确保全球技术应用中的包容性和尊重。
设计博物馆的环境影响工具包是创建的,该工具包是在更广泛的博物馆社区中共享和使用的。它包括一份书面指南,以减少展览设计的环境影响和衡量相关碳排放的影响模型的环境影响。环境影响模型使博物馆能够跟踪和计算与每个展览相关的碳排放。以及记录数据,它还旨在在设计过程本身中帮助决策。这使展览团队能够评估策展和设计选择的碳足迹,例如特定材料的环境优点或运输特定物体涉及的排放。虽然《环境影响指南》基于设计博物馆的作品,但它提供了核心原则,这些原则可以转移到博物馆领域,并可以使其他机构能够反思他们举办展览的方式。这范围从展览的设计和建设到计划中使用的通信的能量。由未来的天文台支持并由艺术与人文研究委员会(AHRC)资助,该工具包最初是由设计博物馆于2023年推出的。它出现了浪费年龄:设计可以做什么?,一个设计博物馆展览,探讨了设计师如何重新利用浪费并锻造更可持续的行业。在英国展览会进行的第一个生命周期评估之一中,设计博物馆对废物进行了环境审核
按照掩蔽语言建模 (MLM) 目标进行训练的多语言预训练语言模型 (multiPLM) 通常用于双语文本挖掘等跨语言任务。然而,这些模型的性能对于低资源语言 (LRL) 仍然不是最优的。为了改进给定 multiPLM 的语言表示,可以进一步对其进行预训练。这称为持续预训练。先前的研究表明,使用 MLM 进行持续预训练,随后使用翻译语言建模 (TLM) 进行预训练可以改进 multiPLM 的跨语言表示。然而,在掩蔽期间,MLM 和 TLM 都会给予输入序列中的所有标记相同的权重,而不管标记的语言属性如何。在本文中,我们引入了一种新颖的掩蔽策略,即语言实体掩蔽 (LEM),用于持续预训练步骤,以进一步改进现有 multiPLM 的跨语言表示。与 MLM 和 TLM 相比,LEM 将掩码限制在语言实体类型名词、动词和命名实体上,这些实体在句子中占据更重要的地位。其次,我们将掩码限制在语言实体范围内的单个标记上,从而保留更多上下文,而在 MLM 和 TLM 中,标记是随机掩码的。我们使用三个下游任务评估 LEM 的有效性,即双语挖掘、并行数据管理和代码混合情感分析,使用三种低资源语言对英语-僧伽罗语、英语-泰米尔语和僧伽罗语-泰米尔语。实验结果表明,在所有三个任务中,使用 LEM 持续预训练的多 PLM 优于使用 MLM+TLM 持续预训练的多 PLM。
我们通过增强世界的增强表示,开发了一个分层的LLM任务计划和重建框架,以有效地将抽象的人类统一到有形的自主水下汽车(AUV)控制中。我们还挑战了一个整体的重建器,以向所有计划者提供现实世界中的反馈,以进行健壮的AUV操作。尽管已经进行了大量研究来弥合LLMS和机器人任务之间的差距,但他们无法保证在广阔而未知的海洋环境中AUV应用的成功。为了应对海洋机器人技术中的特定挑战,我们设计了一个层次结构计划来制定可执行的运动计划,该计划通过将长途任务分解为子任务,从而实现了计划效率和解决方案质量。同时,Replanner获得实时数据流以解决计划执行过程中的环境不确定。实验验证了我们所提出的框架是否通过自然语言试验为长期持续任务提供了成功的AUV表现。项目Web-网站https://sites.google.com/view/oceanplan。
生命和地球花了很长时间才进化出像我们这样的生物。我们不知道这是否是简单的运气(掷骰子足够多),还是某种强制机制(如熵)不可避免地推动生命形式迭代到我们的智力水平甚至更高。创造和使用语言的能力似乎存在于我们最深层的代码中,我们无法有意识地直接访问它(尽管我们可以用科学来分析和操纵该代码)。进化论仍然是解释随时间变化和多样性的最有用的理论,因此任何偏离进化原则的语言理论或“真理”都必须以高度怀疑的态度看待。语言的出发点是,熟练使用声音、符号和符号进行抽象和概念化必定会给所涉及的生命形式带来重大好处。
我们在新颖地应用了既定的生态方法,以量化和比较简短的学生文本语料库中的语言多样性。构造的响应(CRS)是一种常见的评估形式,但由于文本长度限制而引起的传统词汇多样性方法很难评估。在本文中,我们检查了生态多样性度量和秩序技术的实用性,以通过与传统文本分析方法并行应用这些方法来量化短文中的差异,以列为先前研究的大学生CRS的语料库。CR是在两个时间点(定时),三种类型的高级机构(类型)以及三个级别的学生理解(思维)中收集的。使用以前的工作,我们能够预测,我们将根据思维观察到最大的差异,然后是时间安排,并且没有指望基于类型的差异,从而使我们能够测试这些方法对语料库进行分类检查的实用性。我们发现,将CRS相互比较的生态多样性指标(Whittaker的Beta,物种离职率和Bray -Curtis差异)是有益的,并且与我们在类别和其他文本分析方法中的差异和其他文本分析方法的差异非常相关。其他生态措施,包括香农和辛普森的多样性,衡量单个CR中语言的多样性。另外,通过将复杂的单词频率矩阵减少到二维图,定制提供了语料库的有意义的视觉表示。使用顺序图,我们能够观察CR语料库中的模式,以进一步支持我们对数据集的预测。这项工作为衡量短文中语言多样性的新方法建立了可用于检查学生语言差异以及可能与分类数据的关联的差异。