AI-företagen ljuger: LLM-modeller har lagrat hela upphovsrättsskyddade böcker
OpenAI、Anthropic 和 Google 等人工智能公司一致声称,他们的语言模型不存储训练数据的副本,而只存储“学习模式”。在向美国版权局提交的文件中,几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究猛烈抨击了人工智能公司在撒谎:LLM 模型存储了首次出现在人工智能新闻中的全部受版权保护的书籍。
The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining
大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......
Cutting LLM Memory by 84%: A Deep Dive into Fused Kernels
为什么你的最终 LLM 层出现 OOMing 以及如何使用自定义 Triton 内核修复它。将 LLM 内存削减 84%:深入研究融合内核的帖子首先出现在 Towards Data Science 上。
他们在 AIES 2025 上发表的论文“你的护栏能守卫吗?”评估审核护栏在使 LLM 输出与专家用户期望保持一致方面的有效性的方法 Anindya Das Antar、Xun Huan 和 Nikola Banovic 提出了一种评估和选择护栏的方法,该方法能够最好地将 LLM 输出与主题专家的领域知识保持一致。在这里,[...]
Topic Modeling Techniques for 2026: Seeded Modeling, LLM Integration, and Data Summaries
种子主题建模、与 LLM 集成以及汇总数据训练是 NLP 工具包的新鲜部分。2026 年主题建模技术帖子:种子建模、LLM 集成和数据摘要首先出现在《走向数据科学》上。
使用几行代码即可将量化模型无缝部署在 Amazon SageMaker AI 上。在这篇文章中,我们探讨了为什么量化很重要——它如何实现更低成本的推理,支持在资源受限的硬件上的部署,并减少现代法学硕士对财务和环境的影响,同时保留其大部分原始性能。我们还深入研究 PTQ 背后的原理,并演示如何量化您选择的模型并将其部署在 Amazon SageMaker 上。
Probabilistic Multi-Variant Reasoning: Turning Fluent LLM Answers Into Weighted Options
人类引导的 AI 协作概率多变量推理:将流畅的 LLM 答案转化为加权选项一文首先出现在《走向数据科学》上。
LLMs contain a LOT of parameters. But what’s a parameter?
麻省理工学院技术评论解释:让我们的作者解开复杂、混乱的技术世界,帮助您了解接下来会发生什么。您可以在此处阅读该系列的更多内容。我写这篇文章是因为我的一位编辑在半夜醒来并在床头记事本上潦草写下:“什么是……
ChatLLM Presents a Streamlined Solution to Addressing the Real Bottleneck in AI
在过去的几年里,围绕人工智能的许多讨论都围绕着一个看似简单的问题:哪种模型是最好的?但下一个问题始终是,什么是最好的?最适合推理?写作?编码?或者它可能最适合图像、音频或视频?这一框架使得 […]ChatLLM 提出了解决人工智能真正瓶颈的简化解决方案一文首先出现在《走向数据科学》上。
BED-LLM: Intelligent Information Gathering with LLMs and Bayesian Experimental Design
我们提出了一种通用方法,用于提高大型语言模型 (LLM) 使用顺序贝叶斯实验设计 (BED) 框架智能、自适应地从用户或其他外部源收集信息的能力。这使得法学硕士能够充当有效的多轮会话代理并与外部环境进行交互。我们的方法称为 BED-LLM(大型语言模型的贝叶斯实验设计),基于迭代选择问题或查询,最大化关于任务的预期信息增益 (EIG)
What Happens When You Build an LLM Using Only 1s and 0s
比当今标准模型效率提高 41 倍、速度提高 9 倍的 LLM 帖子“仅使用 1 和 0 构建 LLM 时会发生什么”首先出现在《走向数据科学》上。
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation
扩散大语言模型 (dLLM) 是自回归 (AR) 模型的引人注目的替代品,因为它们的去噪模型在整个序列上运行。 dLLM 的全局规划和迭代细化功能对于代码生成特别有用。然而,目前 dLLM 在编码方面的训练和推理机制仍有待探索。为了揭开 dLLM 解码行为的神秘面纱并释放其编码潜力,我们系统地研究了它们的去噪过程和强化学习 (RL) 方法。我们在 130B 上训练 7B dLLM,\textbf{DiffuCoder}...
Tillman Global Holdings to invest up to Rs 60,000 crore in 1GW Maharashtra data centre
Tillman Global Holdings 将投资 6000 亿卢比在马哈拉施特拉邦建设新数据中心。这增加了他们在特伦甘纳邦和安得拉邦的现有承诺。这三个项目的总投资将超过100亿美元。
Erasmus or Turing? Why it’s not an either-or
明天(2026 年 1 月 22 日)上午 11 点与 HEPI 总监 Nick Hillman OBE 和 SUMS Consulting 一起参加基于报告“大学土地:绘制高等教育部门的风险和机遇”的网络研讨会。请在此处注册参加网络研讨会。请阅读 HEPI 在此处、此处和此处发布的有关该报告的博客。这个博客是善意的[…]帖子伊拉斯谟还是图灵?为什么它不是一个非此即彼的问题首先出现在 HEPI 上。
Realpolitik: 10 points to note about today’s new International Education Strategy
HEPI 主任尼克·希尔曼 (Nick Hillman) 介绍了今天发布的新国际教育战略。《现实政治:关于今天新国际教育战略的 10 点注意事项》一文首先出现在 HEPI 上。
MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE
大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。投资回报率...
Over-Searching in Search-Augmented Large Language Models
搜索增强型大语言模型(LLM)通过集成外部检索,擅长知识密集型任务。然而,它们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,这会导致计算效率低下,并因合并不相关的上下文而产生幻觉。在这项工作中,我们对跨多个维度的过度搜索进行了系统评估,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高……的答案准确性
DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search
现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......