专门的大型语言模型 (LLM) 的出现在解决材料科学中的复杂任务方面显示出良好的前景。然而,许多 LLM 往往难以应对材料科学任务的独特复杂性,例如计算挑战,并且严重依赖过时的隐性知识,从而导致不准确和幻觉。为了应对这些挑战,我们推出了 HoneyComb,这是第一个专为材料科学设计的基于 LLM 的代理系统。HoneyComb 利用可靠、高质量的材料科学知识库 (MatSciKB) 和专门为材料科学量身定制的复杂工具中心 (ToolHub) 来增强其推理和计算能力。MatSciKB 是基于可靠文献的精选结构化知识集合,而 ToolHub 采用归纳工具构建方法来生成、分解和细化材料科学的 API 工具。此外,HoneyComb 利用检索器模块自适应地选择适合特定任务的知识源或工具,从而确保准确性和相关性。我们的结果表明,HoneyComb 在材料科学的各种任务中的表现明显优于基线模型,有效地弥补了当前 LLM 能力与该领域的专业需求之间的差距。此外,我们的适应性框架可以轻松扩展到其他科学领域,凸显了其在推进科学研究和应用方面的广泛适用性潜力。代码可用。1
大型语言模型 (LLM) 已显示出作为评估 AI 系统生成的答案质量的自动评估器的前景。然而,基于 LLM 的评估器在用于评估成对比较中的候选答案时表现出位置偏差或不一致性,无论内容如何,都会偏向第一个或第二个答案。为了解决这个限制,我们提出了 P ORTIA,这是一个基于对齐的系统,旨在模仿人类的比较策略,以轻量级但有效的方式校准位置偏差。具体来说,P ORTIA 将答案分成多个部分,同时考虑长度和语义,然后将它们合并回单个提示以供 LLM 评估。对 6 个 LLM 对 11,520 个答案对进行的大量实验表明,P ORTIA 显着提高了所有模型和比较形式的一致性率,平均相对提高 47.46%。它还使 P ORTIA 增强型 GPT-3.5 能够实现与 GPT-4 相当的与人类的一致率,并将 GPT-4 的一致率提高到 98%。后续的人工评估表明,P ORTIA 增强型 GPT-3.5 模型在与人类评估者的一致性方面甚至可以超越独立的 GPT-4,凸显了 P ORTIA 纠正立场偏见、提高 LLM 一致性和提高性能的同时保持成本效率的能力。
同理心是实现亲社会行为的基石,可以通过在故事中分享个人经历来唤起。虽然同理心受到叙事内容的影响,但直觉上,人们也会通过叙事风格对故事的讲述方式做出反应。然而,同理心和叙事风格之间的关系尚未完全了解。在这项工作中,我们使用 LLM 和大规模众包研究,对风格和同理心之间的关系进行了实证检验和量化。我们引入了一种基于理论的新颖分类法 H EART(人类同理心和叙事分类法),它描述了可以与故事叙述者产生同理心的叙事风格元素。我们确定了 LLM 在从 H EART 中提取叙事元素方面的表现,表明使用我们的分类法进行提示可以产生合理的、人类级别的注释,超出了以前基于词典的方法所能达到的范围。为了展示我们分类法的实证应用,我们通过一项大规模众包研究收集了故事共情判断数据集,参与者人数为 N = 2,624 人。1 我们表明,通过 LLM 提取的叙事元素(尤其是情感生动性和情节量)可以阐明叙事风格培养对个人故事的共情的途径。我们的工作表明,此类模型可用于叙事分析,从而获得以人为本的社会和行为洞察。
生成式人工智能可用于以类似于 Google 等搜索引擎的方式进行研究、纠正语法以及用于完成作业的其他功能。允许使用常见文字处理软件中包含的功能。这包括 Microsoft Word、Google Docs 和 Grammarly 的拼写和语法纠正以及自动补全功能(但不包括 Grammarly 的生成式人工智能功能)。
在本报告中,Biodivera+引入了一种通用的方法论方法,以识别利益相关者需求驱动的生物多样性监测优先级。该方法基于“供求和需求”框架,该框架列出了生物多样性监视数据和结果的使用类别,并通过扩展确定了此类数据的用户。然后,我们提出了针对这些用户的简单调查,以强调他们需要用作主题优先级。本文档回顾了调查的设计和核心问题的措辞,以及有关分层的重要元素(需要正确解释结果的信息)和答案分析。我们提倡定期部署策略,例如2至4年,用户的建议促成了下一个调查周期。该调查足够通用,可以从本地到区域进行各种规模应用,并回答不同的社区。在欧洲规模上,我们建议将这项定期调查视为欧洲生物多样性监测景观的基石,这可能会成为未来欧洲生物多样性观察协调中心(EBOCC)的伞下的任务。
不列颠哥伦比亚省药剂师学院 (“学院”) 是 BC 省的药房监管机构,通过为药剂师和药剂技术人员颁发执照并进行监管,以及他们在该省执业的药房,保护公众。法学考试 (JE) 由测试服务提供商 Prometric 代表学院管理。JE 基于联邦和省级法案、其法规、附例和已发布的学院专业实践政策中的立法,这些立法涉及药房运营和注册人 (药剂师或药剂技术人员) 在药房实践中的责任。JE 旨在评估考生对所有影响 BC 省药房实践的法律 (包括道德规范) 的了解和解释能力。由于考生不需要记住药物时间表,因此将为 JE 提供药物时间表的电子副本。但是,他们应该准备好识别、解释和应用要遵循的相关法律要求和程序。除了本文档中提供的信息外,所有考生还必须阅读并遵守注册委员会政策 3:法学考试,以及 Prometric 的规定和政策。
我非常高兴和自豪地向大家介绍《走向法官之路:2023 年 RJS 毕业生的旅程》这本书。这本书记录了拉贾斯坦邦司法服务 (RJS) 官员的变革历程,他们在拉贾斯坦邦司法学院接受了严格的培训。这些年轻的司法官员是未来的司法守护者,他们的培训反映了他们对维护正直、公正和致力于法治的价值观的承诺。司法机构在确保正义方面发挥着关键作用,法官的角色不仅需要对法律有深刻的理解,还需要有强大的道德基础。拉贾斯坦邦司法学院提供的全面培训旨在使司法官员具备应对司法程序挑战所需的法律知识、实践技能和道德框架。本书分享的经验反映了学院致力于培养新一代司法官员,他们准备以公平和同情的态度处理司法系统的复杂性。 《走向法官之路》不仅仅是 2023 年 RJS 学员培训的记录,更是对他们在学院学习期间所取得的学术成就、个人成长和友爱精神的庆祝。该出版物也是未来司法官员的宝贵资源,提供了成功司法职业所必需的严格准备。作为拉贾斯坦邦首席大法官,我非常自豪地见证了这些已经承担起伸张正义责任的年轻官员的成长。我相信,他们在培训期间吸收的价值观、原则和知识将继续指导他们以荣誉和正直履行职责。我衷心祝贺 2023 年 RJS 学员的辛勤工作和毅力。我毫不怀疑,他们将在未来几年为司法事业做出重大贡献,并维护最高的司法标准。我祝愿他们在踏上这段崇高而充满挑战的旅程时一切顺利。
背景:量子计算是一种快速发展的新编程范式,它为算法的设计和实现带来了重大变化。理解量子算法需要物理和数学知识,这对软件开发人员来说可能具有挑战性。目的:在这项工作中,我们首次分析了 LLM 如何支持开发人员理解量子代码。方法:我们使用两种不同的人工编写提示风格,对七种最先进的量子算法,通过实证分析和比较三种广泛采用的 LLM(Gpt3.5、Llama2 和 Tinyllama)提供的解释质量。我们还分析了 LLM 解释在多轮中的一致性以及 LLM 如何改进现有的量子算法描述。结果:Llama2 从头开始提供最高质量的解释,而 Gpt3.5 成为最适合改进现有解释的 LLM。此外,我们表明,在提示中添加少量上下文可以显着提高解释的质量。最后,我们观察了解释在多轮中在质量和句法上如何保持一致。结论:这项工作突出了有希望的结果,并为未来在量子代码解释的 LLM 领域的研究提出了挑战。未来的工作包括通过快速优化和解析量子代码解释来改进方法,以及对解释的质量进行系统评估。