模型关键词检索结果

DiffuCoder:理解和改进代码生成的掩模扩散模型

DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation

扩散大语言模型 (dLLM) 是自回归 (AR) 模型的引人注目的替代品,因为它们的去噪模型在整个序列上运行。 dLLM 的全局规划和迭代细化功能对于代码生成特别有用。然而,目前 dLLM 在编码方面的训练和推理机制仍有待探索。为了揭开 dLLM 解码行为的神秘面纱并释放其编码潜力,我们系统地研究了它们的去噪过程和强化学习 (RL) 方法。我们在 130B 上训练 7B dLLM,\textbf{DiffuCoder}...

人工智能公司在撒谎:LLM模型存储了整本受版权保护的书籍

AI-företagen ljuger: LLM-modeller har lagrat hela upphovsrättsskyddade böcker

OpenAI、Anthropic 和 Google 等人工智能公司一致声称,他们的语言模型不存储训练数据的副本,而只存储“学习模式”。在向美国版权局提交的文件中,几家公司积极否认他们的模型具有存储系统功能。但斯坦福大学和耶鲁大学于 2026 年 1 月发表的一项新研究猛烈抨击了人工智能公司在撒谎:LLM 模型存储了首次出现在人工智能新闻中的全部受版权保护的书籍。

天气再分析模型

Weather Reanalysis Models

作者:Andy May 我的新论文(2025 年 5 月)强调,虽然许多基础观测用于构建天气再分析数据集,例如 ERA5(欧洲中程天气中心……

ParaRNN:解锁大型语言模型的非线性 RNN 并行训练

ParaRNN: Unlocking Parallel Training of Nonlinear RNNs for Large Language Models

循环神经网络 (RNN) 为序列建模奠定了基础,但其内在的序列性质限制了并行计算,为扩展造成了根本障碍。这导致了 Transformer 等可并行架构以及最近的状态空间模型 (SSM) 的主导地位。虽然 SSM 通过结构化线性递归实现高效并行化,但这种线性约束限制了它们的表达能力,并妨碍对复杂的非线性序列依赖关系进行建模。为了解决这个问题,我们提出了 ParaRNN,一个打破......

Gemini 3 Flash 成为 Google 默认 AI 模型

Gemini 3 Flash становится ИИ-моделью Google по умолчанию

该公司创建了一种更快、更强大、更经济的模型。

利用新的 Amazon SageMaker AI 模型定制和大规模训练功能转变 AI 开发

Transform AI development with new Amazon SageMaker AI model customization and large-scale training capabilities

本文探讨了新的无服务器模型定制功能、弹性训练、无检查点训练和无服务器 MLflow 如何协同工作,将您的 AI 开发速度从几个月缩短到几天。

当 Shapley 值被打破时:稳健模型可解释性指南

When Shapley Values Break: A Guide to Robust Model Explainability

Shapley 值是最常见的可解释性方法之一,但它们可能会产生误导。了解如何克服这些限制以获得更好的见解。《当沙普利价值观被打破:稳健模型可解释性指南》一文首先出现在《走向数据科学》上。

排名前 5 位的开源 AI 模型 API 提供商

Top 5 Open-Source AI Model API Providers

大型开源语言模型现在可以广泛使用,本文对领先的 AI API 提供商的性能、定价、延迟和实际可靠性进行了比较,以帮助您选择正确的选项。

用于低成本推理的 10 个小型高效模型 API

Top 10 Small & Efficient Model APIs for Low‑Cost Inference

了解什么是 GPU 分段、TimeSlicing 和多实例 GPU (MIG) 等技术如何工作,以及 Clarifai 如何自动执行 GPU 共享以高效运行多个 AI 工作负载。

LustGF 聊天机器人功能和定价模型

LustGF Chatbot Features and Pricing Model

LustGF 的呈现方式侧重于减少对话限制和提高响应能力。正在寻找反应自然的对话的用户,特别是在更刺激或更面向成人的环境中,可能会发现这种方法很有吸引力。 LustGF 定价原理 LustGF 的定价是根据个人使用情况制定的,而不是锁定为单一月费,月费可能会根据未经审查的聊天功能的使用频率而有所不同。新用户通常会获得有限数量的交流,从而使他们可以免费体验聊天机器人的语气和表达风格。随着互动水平的提高,付费访问被引入到 [...]

印度的 SLM 时刻:为什么预算支持对于本土人工智能模型至关重要

India’s SLM moment: Why Budget support is crucial for home-grown AI models

印度预算:印度的人工智能雄心取决于开发适合当地需求的本土小语言模型 (SLM),而不是仅仅依赖资源密集型的法学硕士。这些紧凑的、以任务为中心的模型对于实现人工智能访问民主化、支持多种语言以及推动农业和医疗保健等行业的包容性经济增长至关重要。 2026 年预算应优先为可持续土地管理的发展提供资金。

一流学位比例连续第三年下降,但近 40% 的顶级成绩无法用统计模型解释

Proportion of first class degrees falls for third consecutive year, but nearly 40 per cent of top grades cannot be explained by statistical modelling

世界模型可以开启人工智能的下一次革命

World models could unlock the next revolution in artificial intelligence

为什么当今的人工智能系统难以保持一致性,以及新兴世界模型如何旨在让机器稳定地掌握空间和时间

所有主要人工智能模型都存在鼓励危险科学实验的风险

All major AI models risk encouraging dangerous science experiments

科学家警告称,研究人员允许人工智能设计实验,可能会带来火灾、爆炸或中毒的风险。大约 19 种不同的人工智能模型在数百个问题上进行了测试,以评估它们发现和避免危险的能力,但没有一个模型能够识别所有问题 - 有些模型的表现比随机猜测好不了多少

新的研究暗示,我们的宇宙模型存在严重缺陷,除非空间实际上是一种“粘性流体”

Our model of the universe is deeply flawed — unless space is actually a 'sticky fluid,' new research hints

一篇新论文表明,我们最好的宇宙模型并不成立——但如果宇宙实际上是由粘性“流体”构成,情况可能会改变。

为什么您的 ML 模型在训练中有效但在生产中失败

Why Your ML Model Works in Training But Fails in Production

构建生产 ML 系统的惨痛教训,其中存在数据泄漏、默认值、群体变化以及时间不按我们预期的方式运行。为什么您的 ML 模型在训练中有效但在生产中失败的帖子首先出现在《走向数据科学》上。

用于 Hugging Face 模型的流行 Python 库,易受中毒元数据攻击

Popular Python libraries used in Hugging Face models subject to poisoned metadata attack

这些开源库由 Salesforce、Nvidia 和 Apple 与瑞士集团创建。Hugging Face 模型中使用的流行 AI 和 ML Python 库中的漏洞,下载量达数千万次,允许远程攻击者在元数据中隐藏恶意代码。当加载包含中毒元数据的文件时,代码会自动执行。

开源模型更准确地测量天然气的温室气体排放

Open-source model more accurately measures greenhouse gas emissions from natural gas

麦吉尔工程研究人员推出了一种开源模型,使专家和非专家都可以更轻松地评估美国天然气供应链的温室气体排放,并得出更准确的结果。