专门的大型语言模型 (LLM) 的出现在解决材料科学中的复杂任务方面显示出良好的前景。然而,许多 LLM 往往难以应对材料科学任务的独特复杂性,例如计算挑战,并且严重依赖过时的隐性知识,从而导致不准确和幻觉。为了应对这些挑战,我们推出了 HoneyComb,这是第一个专为材料科学设计的基于 LLM 的代理系统。HoneyComb 利用可靠、高质量的材料科学知识库 (MatSciKB) 和专门为材料科学量身定制的复杂工具中心 (ToolHub) 来增强其推理和计算能力。MatSciKB 是基于可靠文献的精选结构化知识集合,而 ToolHub 采用归纳工具构建方法来生成、分解和细化材料科学的 API 工具。此外,HoneyComb 利用检索器模块自适应地选择适合特定任务的知识源或工具,从而确保准确性和相关性。我们的结果表明,HoneyComb 在材料科学的各种任务中的表现明显优于基线模型,有效地弥补了当前 LLM 能力与该领域的专业需求之间的差距。此外,我们的适应性框架可以轻松扩展到其他科学领域,凸显了其在推进科学研究和应用方面的广泛适用性潜力。代码可用。1
大型语言模型 (LLM) 已显示出作为评估 AI 系统生成的答案质量的自动评估器的前景。然而,基于 LLM 的评估器在用于评估成对比较中的候选答案时表现出位置偏差或不一致性,无论内容如何,都会偏向第一个或第二个答案。为了解决这个限制,我们提出了 P ORTIA,这是一个基于对齐的系统,旨在模仿人类的比较策略,以轻量级但有效的方式校准位置偏差。具体来说,P ORTIA 将答案分成多个部分,同时考虑长度和语义,然后将它们合并回单个提示以供 LLM 评估。对 6 个 LLM 对 11,520 个答案对进行的大量实验表明,P ORTIA 显着提高了所有模型和比较形式的一致性率,平均相对提高 47.46%。它还使 P ORTIA 增强型 GPT-3.5 能够实现与 GPT-4 相当的与人类的一致率,并将 GPT-4 的一致率提高到 98%。后续的人工评估表明,P ORTIA 增强型 GPT-3.5 模型在与人类评估者的一致性方面甚至可以超越独立的 GPT-4,凸显了 P ORTIA 纠正立场偏见、提高 LLM 一致性和提高性能的同时保持成本效率的能力。
基于大型语言模型 (LLM) 的聊天机器人(例如 OpenAI 的 ChatGPT 4.0 和 Google 的 Bard)是更广泛的生成式人工智能进步的象征。它们在学术、经济和政策制定讨论中引起了广泛关注。本文旨在研究 LLM 聊天机器人与量子科学和技术的交集,重点研究它们在这些学科中增强研究方法和教学方法的潜力。它通过评估基于 LLM 的工具在各种学术功能和行业中的现有和未来潜在效用,通过许多示例探索了基于 LLM 的工具的功能。这些范围从促进基本的问答互动到更复杂的活动,例如软件开发、撰写科学论文、审阅科学论文、准备实验、研究构思和促进量子科学的协作研究实践。LLM 和其他相关工具的快速发展实现了迄今为止各种形式的原始推理,表明它们有可能显着改变研究和教育格局,类似于互联网及其相关工具的变革性影响。因此,本文建议使用开源模型和科学语料库创建一个基于 LLM 的量子科学领域特定聊天机器人。它还将基于 LLM 的聊天机器人置于更广泛的机器学习技术中,这些技术已经用于量子科学和技术的发展。然后,它快速探讨了量子计算如何或可能不会进一步推进机器学习应用和基于语言的模型。结论是,人工智能可能会对塑造量子科学研究、教育和技术发展的轨迹产生深远影响,而反之则相当不确定,至少在短期到中期内是如此。
所学模块以及论文模块的教学部分将为学生提供完成最终研究项目(实习后的论文或高级报告)所需的学科知识和技能。论文模块的教学部分将在第 2 学期开始,并将以不计学分的法律基础和技能的介绍材料为基础,重点介绍各种研究方法。虽然学生不需要进行实证研究来支持他们的论文,但他们应该能够理解和评估他人所做的实证工作。因此,对社会研究问题和研究方法问题的实际知识很重要。全日制学生将于 9 月份开始的第 2b 学期(从 4 月开始)和 1 月份开始的第 2 学期(从第二年的 1 月开始)开始论文的独立部分。
背景:量子计算是一种快速发展的新编程范式,它为算法的设计和实现带来了重大变化。理解量子算法需要物理和数学知识,这对软件开发人员来说可能具有挑战性。目的:在这项工作中,我们首次分析了 LLM 如何支持开发人员理解量子代码。方法:我们使用两种不同的人工编写提示风格,对七种最先进的量子算法,通过实证分析和比较三种广泛采用的 LLM(Gpt3.5、Llama2 和 Tinyllama)提供的解释质量。我们还分析了 LLM 解释在多轮中的一致性以及 LLM 如何改进现有的量子算法描述。结果:Llama2 从头开始提供最高质量的解释,而 Gpt3.5 成为最适合改进现有解释的 LLM。此外,我们表明,在提示中添加少量上下文可以显着提高解释的质量。最后,我们观察了解释在多轮中在质量和句法上如何保持一致。结论:这项工作突出了有希望的结果,并为未来在量子代码解释的 LLM 领域的研究提出了挑战。未来的工作包括通过快速优化和解析量子代码解释来改进方法,以及对解释的质量进行系统评估。
● RV 3.2:(RCA)AI 需要纳入需要遵循的安全编码实践:必须包含用于训练模型的数据(语料库),API 可以协助梯度型攻击
自 2007 年以来,我一直担任圣地亚哥梅萨学院的在线服务图书管理员。我于 2014 年获得教育技术博士学位,近 30 年来一直参与研究技术在教学中的应用变化,我很高兴能将我的兴趣和经验带到 SDCCD 和加州社区学院。SDCCD 新兴技术教师专家,梅萨学院正教授
大型语言模型 (LLM) 的最新发展已在一系列任务中展示了其卓越的能力。然而,关于 LLM 的性质及其在执行涉及现实物理世界信息的任务时整合人类常识知识的潜力的问题仍然存在。本文通过探索如何扩展 LLM 以通过物联网传感器和执行器与物理世界交互和推理物理世界(我们称之为“渗透式 AI 1 ”的概念)来深入探讨这些问题。本文从两个层面探讨了 LLM 通过处理感官信号渗透到物理世界的能力的这种扩展。我们的初步研究结果表明,以 ChatGPT 为代表的 LLM 在我们探索中具有相当独特的能力,能够运用嵌入式世界知识来解释物联网传感器数据并对其推理物理领域的任务。这不仅为 LLM 开辟了超越传统基于文本的任务的新应用,而且还为将人类知识融入信息物理系统提供了新的方式。
我们的教授将法律世界带入课堂。例如,布拉德利·克拉克教授最近与他的朋友埃琳娜·卡根法官(左图)在满屋子的学生面前进行了一次对话。我们的教授在最高法院辩论,在国会山作证,并在乔治华盛顿大学法学院任教。这就是我们提供的融入华盛顿教育的一个例子。这意味着我们的教授不仅是学者,而且还参与塑造华盛顿校园周围机构的法律实践和发展。这种经验和机会使我们的学生受益匪浅。
科学问题解决涉及在应用专家知识的同时综合信息。我们引入了 CURIE,这是一个科学的长上下文理解、推理和信息提取基准,用于衡量大型语言模型 (LLM) 在协助科学家进行现实实验和理论工作流程方面的潜力。该基准引入了由六个学科的专家策划的十项具有挑战性的任务:材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。我们在 CURIE 中的任务上评估了一系列封闭和开放的 LLM,这些任务需要领域专业知识、对长上下文信息的理解和多步骤推理。虽然 Claude-3 在各个领域都表现出一致的高理解力,但流行的 GPT-4o 和 command-R + 在蛋白质测序任务上表现不佳。总的来说,所有模型都有很大改进空间。我们希望这项工作能够指导未来科学领域 LLM 的发展。