llm关键词检索结果

Tillman Global Holdings 将投资 6000 亿卢比建设 1GW 马哈拉施特拉邦数据中心

Tillman Global Holdings to invest up to Rs 60,000 crore in 1GW Maharashtra data centre

Tillman Global Holdings 将投资 6000 亿卢比在马哈拉施特拉邦建设新数据中心。这增加了他们在特伦甘纳邦和安得拉邦的现有承诺。这三个项目的总投资将超过100亿美元。

1 月 5 日,不要因为 Hallmark 电影而离婚

On January 5th, Don't Get Divorced Because Of Hallmark Movies

新年后的星期一俗称离婚日,但它不仅仅是婚姻的结束。许多恋爱关系较长的人,当然还有季节性假期,只是想在结束假期之前度过假期。今年的星期一是 1 月 5 日。独自一人可能会更好,也可能有更好的东西,但也可能是一个人或两个人只是抱有不切实际的期望,认为他们的电视电影幻想应该成为现实。阅读更多

DiffuCoder:理解和改进代码生成的掩模扩散模型

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

扩散大语言模型 (dLLM) 是自回归 (AR) 模型的引人注目的替代品,因为它们的去噪模型在整个序列上运行。 dLLM 的全局规划和迭代细化功能对于代码生成特别有用。然而,目前 dLLM 在编码方面的训练和推理机制仍有待探索。为了揭开 dLLM 解码行为的神秘面纱并释放其编码潜力,我们系统地研究了它们的去噪过程和强化学习 (RL) 方法。我们在 130B 上训练 7B dLLM,\textbf{DiffuCoder}...

伊拉斯谟还是图灵?为什么这不是一个非此即彼的问题

Erasmus or Turing? Why it’s not an either-or

明天(2026 年 1 月 22 日)上午 11 点与 HEPI 总监 Nick Hillman OBE 和 SUMS Consulting 一起参加基于报告“大学土地:绘制高等教育部门的风险和机遇”的网络研讨会。请在此处注册参加网络研讨会。请阅读 HEPI 在此处、此处和此处发布的有关该报告的博客。这个博客是善意的[…]帖子伊拉斯谟还是图灵?为什么它不是一个非此即彼的问题首先出现在 HEPI 上。

人工智能公司在撒谎:LLM模型存储了整本受版权保护的书籍

AI-företagen ljuger: LLM-modeller har lagrat hela upphovsrättsskyddade böcker

OpenAI、Anthropic 和 Google 等人工智能公司一致声称,他们的语言模型不存储训练数据的副本,而只存储“学习模式”。在向美国版权局提交的文件中,几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究猛烈抨击了人工智能公司在撒谎:LLM 模型存储了首次出现在人工智能新闻中的全部受版权保护的书籍。

现实政治:关于今天新的国际教育战略的十点注意事项

Realpolitik: 10 points to note about today’s new International Education Strategy

HEPI 主任尼克·希尔曼 (Nick Hillman) 介绍了今天发布的新国际教育战略。《现实政治:关于今天新国际教育战略的 10 点注意事项》一文首先出现在 HEPI 上。

数据质量错觉:重新思考 LLM 预训练中基于分类器的质量过滤

The Data-Quality Illusion: Rethinking Classifier-Based Quality Filtering for LLM Pretraining

大型模型是在包含混合质量文档的大量网络爬行数据集上进行预训练的,因此数据过滤至关重要。一种流行的方法是基于分类器的质量过滤 (CQF),它训练二元分类器来区分预训练数据和小型高质量数据集。它为每个预训练文档分配一个定义为分类器分数的质量分数,并仅保留得分最高的分数。我们对 CQF 进行了深入分析。我们表明,虽然 CQF 提高了下游任务性能,但它不一定能增强高质量的语言建模......

将 LLM 内存减少 84%:深入研究融合内核

Cutting LLM Memory by 84%: A Deep Dive into Fused Kernels

为什么你的最终 LLM 层出现 OOMing 以及如何使用自定义 Triton 内核修复它。将 LLM 内存削减 84%:深入研究融合内核的帖子首先出现在 Towards Data Science 上。

Anindya Das Antar 访谈:评估审核护栏在调整 LLM 输出方面的有效性

Interview with Anindya Das Antar: Evaluating effectiveness of moderation guardrails in aligning LLM outputs

他们在 AIES 2025 上发表的论文“你的护栏能守卫吗?”评估审核护栏在使 LLM 输出与专家用户期望保持一致方面的有效性的方法 Anindya Das Antar、Xun Huan 和 Nikola Banovic 提出了一种评估和选择护栏的方法,该方法能够最好地将 LLM 输出与主题专家的领域知识保持一致。在这里,[...]

2026 年主题建模技术:种子建模、LLM 集成和数据摘要

Topic Modeling Techniques for 2026: Seeded Modeling, LLM Integration, and Data Summaries

种子主题建模、与 LLM 集成以及汇总数据训练是 NLP 工具包的新鲜部分。2026 年主题建模技术帖子:种子建模、LLM 集成和数据摘要首先出现在《走向数据科学》上。

MoE 比您想象的更强大:使用 RoE 进行超并行推理扩展

MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE

大型语言模型 (LLM) 的生成质量通常可以通过利用推理时间序列级缩放方法(例如思想链)来提高。我们引入了超并行扩展,这是一种补充框架,可以提高令牌级别的预测质量。超并行扩展计算并聚合模型中单个令牌的多个输出建议。我们在专家混合 (MoE) 模型中实现这一概念,我们将其称为专家名册 (RoE)。 RoE 是一种免训练推理算法,可将单个 MoE 转变为 MoE 的动态集合。投资回报率...

搜索增强大型语言模型中的过度搜索

Over-Searching in Search-Augmented Large Language Models

搜索增强型大语言模型(LLM)通过集成外部检索,擅长知识密集型任务。然而,它们经常过度搜索——不必要地调用搜索工具,即使它不能提高响应质量,这会导致计算效率低下,并因合并不相关的上下文而产生幻觉。在这项工作中,我们对跨多个维度的过度搜索进行了系统评估,包括查询类型、模型类别、检索条件和多轮对话。我们的发现表明:(i) 搜索通常可以提高……的答案准确性

DeepMMSearch-R1:在多模式网络搜索中为多模式法学硕士提供支持

DeepMMSearch-R1: Empowering Multimodal LLMs in Multimodal Web Search

现实应用中的多模态大型语言模型 (MLLM) 需要访问外部知识源,并且必须保持对动态且不断变化的现实世界信息的响应,以便解决信息查找和知识密集型用户查询。现有的方法,例如检索增强生成 (RAG) 方法、搜索代理和配备搜索的 MLLM,通常会遇到僵化的管道、过多的搜索调用和构造不良的搜索查询,从而导致效率低下和结果不佳。为了解决这些限制,我们提出......

MANZANO:具有混合视觉分词器的简单且可扩展的统一多模态模型

MANZANO: A Simple and Scalable Unified Multimodal Model with a Hybrid Vision Tokenizer

能够理解和生成视觉内容的统一多模式大语言模型 (LLM) 拥有巨大的潜力。然而,现有的开源模型通常会受到这些功能之间性能权衡的影响。我们提出了 Manzano,一个简单且可扩展的统一框架,通过将混合图像标记器与精心策划的训练方案相结合,大大减少了这种紧张。单个共享视觉编码器为两个轻量级适配器提供数据,这些适配器在公共…内生成用于图像到文本理解的连续嵌入和用于文本到图像生成的离散标记。

人工智能关于人的决策的公平性

Fairness in AI Decisions About People

来自 LLM 实验的证据

在 Amazon SageMaker AI 上使用 AWQ 和 GPTQ 通过训练后权重和激活加速 LLM 推理

Accelerating LLM inference with post-training weight and activation using AWQ and GPTQ on Amazon SageMaker AI

使用几行代码即可将量化模型无缝部署在 Amazon SageMaker AI 上。在这篇文章中,我们探讨了为什么量化很重要——它如何实现更低成本的推理,支持在资源受限的硬件上的部署,并减少现代法学硕士对财务和环境的影响,同时保留其大部分原始性能。我们还深入研究 PTQ 背后的原理,并演示如何量化您选择的模型并将其部署在 Amazon SageMaker 上。

使用 AWS Generative AI 服务进行文本和音频情感分析:方法、挑战和解决方案

Sentiment Analysis with Text and Audio Using AWS Generative AI Services: Approaches, Challenges, and Solutions

这篇文章是通过 AWS 与 Instituto de Ciência e Tecnologia Itaú (ICTi)(ICTi)(由拉丁美洲最大的私人银行 Itaú Unibanco 维护的 P&D 中心)之间的战略科学合作伙伴关系开发的,探讨了文本和音频情绪分析的技术方面。我们展示了比较多种机器学习 (ML) 模型和服务的实验,讨论了每种方法的权衡和陷阱,并重点介绍了如何编排 AWS 服务来构建强大的端到端解决方案。我们还提供对未来潜在方向的见解,包括针对大型语言模型 (LLM) 的更先进的提示工程,以及扩大基于音频的分析范围以捕获仅文本数据可能会错过的情感线索。

Sayd Agzamkhodjaev:“用户不相信系统永远不会出错;他们相信系统可以安全地恢复。”

Sayd Agzamkhodjaev: “Users don’t trust that the system never makes mistakes; they trust that it can safely recover.”

Treater 的创始工程师知道基于人工智能代理的正确组织的管道和分析如何将复杂的法学硕士转变为实用且可靠的业务工具。 2025年,世界各地的公司都在积极采用生成式人工智能技术和大语言模型(LLM)。大约 72% 的企业计划增加对这些技术的投资 [...]