之前对法学硕士内部运作的研究发现了稀疏子网络,通常称为电路,负责执行特定任务。此外,研究表明,通过微调来提高模型性能通常来自于模型中现有电路的强化。总而言之,这些发现表明直接干预此类电路以进行精确的、针对任务的更新的可能性。受这些发现的启发,我们提出了一种称为“结构性电路放大”的新方法,它可以识别关键令牌……
Closing the Gap Between Text and Speech Understanding in LLMs
大型语言模型 (LLM) 可以进行调整,将其文本功能扩展到语音输入。然而,这些适应语音的法学硕士在语言理解任务上始终表现不佳,甚至低于基于文本的法学硕士,甚至级联管道。我们将这种缺陷称为文本-语音理解差距:相对于基于原始文本的 LLM 处理等效文本,当适应语音的 LLM 处理语音输入时观察到的性能下降。最近缩小这一差距的方法要么依赖文本语料库的大规模语音合成,但成本高昂且严重依赖……
本立场文件介绍了一个安全的、基于云的框架,用于测试大型语言模型如何准确、透明地对复杂的调查数据执行现实世界的统计分析。它使用经过验证的 ACS 微数据任务,比较仅推理和代码执行工作流程,突出显示值得信赖的人工智能驱动分析的优势、局限性和设计要求。
Beyond Quizzes: 10 Practice-Based Learning Activities Powered By LLMs
本文探讨了十种超越测验的基于实践的学习活动,并展示了法学硕士如何通过促进、挑战和反思来支持成人学习,同时保持人类判断为中心。这篇文章首次发表在电子学习行业。
Study: Platforms that rank the latest LLMs can be unreliable
仅删除一小部分为在线排名平台提供信息的众包数据就可以显着改变结果。
Mechanistic Interpretability: Peeking Inside an LLM
LLM 的类人认知能力是真是假?信息如何通过神经网络传输?法学硕士里面是否隐藏着知识?《机械可解释性:法学硕士内部窥探》一文首先出现在《走向数据科学》上。
#490 – State of AI in 2026: LLMs, Coding, Scaling Laws, China, Agents, GPUs, AGI
Nathan Lambert 和 Sebastian Raschka 是机器学习研究人员、工程师和教育家。 Nathan 是艾伦人工智能研究所 (Ai2) 的培训后负责人,也是《RLHF 书》的作者。 Sebastian Raschka 是《Build a Large Language Model (From Scratch)》和《Build a Reasoning Model (From Scratch)》的作者。感谢您的聆听 ❤ 查看我们的赞助商:https://lexfridman.com/sponsors/ep490-sc 请参阅下面的时间戳、成绩单,并提供反馈、提交问题、联系 Lex
SelfReflect: Can LLMs Communicate Their Internal Answer Distribution?
传达大型语言模型 (LLM) 不确定性的常见方法是在其响应中添加百分比数字或保护语。但这就是我们能做的一切吗?对用户完全透明的法学硕士需要能够反映其内部信念分布并输出其认为可能的所有选项及其可能性的摘要,而不是生成单个答案然后对其进行对冲。为了测试法学硕士是否具备这种能力,我们开发了 SelfReflect 指标,即给定摘要与答案分布之间的信息论距离。在...
随着大型语言模型 (LLM) 部署的增加,人们担心它们可能被滥用来生成有害内容。我们的工作研究对齐挑战,重点是过滤器以防止生成不安全信息。两个自然的干预点是在输入提示到达模型之前对其进行过滤,以及在生成后对输出进行过滤。我们的主要结果证明了过滤提示和输出方面的计算挑战。首先,我们表明存在没有有效提示过滤器的法学硕士:对抗性提示......
The Top 10 LLM Evaluation Tools
LLM 评估工具可帮助团队衡量模型在各种任务中的执行情况,包括推理、总结、检索、编码和指令遵循。他们分析性能趋势,检测幻觉,根据实际情况验证输出,并在微调或即时工程期间对改进进行基准测试。如果没有强大的评估框架,组织就会面临部署不可预测或有害人工智能的风险……阅读更多»“十大法学硕士评估工具”一文首先出现在《大数据分析新闻》上。
Mathematical Roots Of The Modern AI Mind
为什么重要:人工智能如何从数学思维理论演化而来,追溯了人工智能从符号逻辑到神经网络和法学硕士的历程。
Trace Length is a Simple Uncertainty Signal in Reasoning Models
法学硕士的不确定性量化是解决幻觉和其他限制其可靠部署的问题的关键研究方向。在这项工作中,我们证明推理轨迹长度是大型推理模型中简单且有用的置信度估计器。通过跨多个模型、数据集和提示的综合实验,我们表明迹线长度的表现与其他零样本置信度估计器(例如言语置信度)具有可比较但互补的方式。我们的工作表明,训练后推理从根本上改变了踪迹之间的关系……
The Evolving Role of the ML Engineer
Stephanie Kirmer 讲述了 2000 亿美元的投资泡沫、人工智能公司如何重建信任,以及她的日常工作如何随着法学硕士的兴起而发生变化。机器学习工程师的角色演变一文首先出现在《走向数据科学》上。
Gearing Up for SXSW EDU with Kayla Meyers
了解 SXSW EDU 2026 的内幕消息,Mike Palmer 与 SXSW EDU 的 Kayla Meyers 坐下来预览今年 3 月前往奥斯汀的活动。从重新构想的全市覆盖范围到迄今为止最大的播客舞台阵容,我们正在分析为什么今年是教育生态系统中任何人都必须参加的一年。Kayla 分享了她从博物馆馆长到会议“无可挑剔的氛围”背后的策划者的旅程,深入探讨了塑造 2026 年计划的趋势。将奥斯汀市置于中心位置。🎙️ 播客舞台扩展:今年我们的播客数量将增加到 16 个——请来观看 Trending in Ed 现场直播,在周一早上拉开帷幕。🎓 提升学生的声音:从学生主导的新闻到“学生变革者中
AI uncovers solutions to Erdős problems, moving closer to transforming math
法学硕士最近帮助找到了一些长期存在的小问题的解决方案。但一项名为“First Proof”的新计划确实让他们经受了考验