数模领域信息情报检索---XiaoMi-AI

2022年5月26日 00:00

动态语言理解：在参数和半参数模型中适应新知识

Dynamic language understanding: adaptation to new knowledge in parametric and semi-parametric models

为了研究半参数 QA 模型及其底层参数语言模型 (LM) 如何适应不断发展的知识，我们构建了一个新的大型数据集 StreamingQA，其中包含在给定日期提出的人工编写和生成的问题，这些问题将从 14 年的带时间戳的新闻文章中得到解答。我们每季度对我们的模型进行评估，因为它们会阅读预训练中未见过的新文章。我们表明，参数模型可以在不进行完全重新训练的情况下进行更新，同时避免灾难性的遗忘。

英国物理学家网首页

2025年9月25日 14:34

AI驱动的系统融合了文献，实验和机器人技术，以发现新材料

AI-driven system blends literature, experiments and robotics to discover new materials

机器学习模型可以通过做出预测和建议实验来加快新材料的发现。但是，当今大多数模型仅考虑一些特定类型的数据或变量。比较与在协作环境中工作的人类科学家，并考虑实验结果，更广泛的科学文献，成像和结构分析，个人经验或直觉，以及同事和同伴审稿人的投入。

DeepMind - 新闻与博客

2025年8月14日 16:00

引入Gemma 3 270m：高效AI

Introducing Gemma 3 270M: The compact model for hyper-efficient AI

今天，我们正在为Gemma 3工具包添加了一个新的，高度专业的工具：Gemma 3 270m，一个紧凑型，2.7亿参数模型。

Apple机器学习研究

2025年7月10日 06:25

屏蔽扩散：使用稀疏驱除态生成新颖和多样的图像

Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency

扩散模型正在生成越来越现实的图像。但是，当用相同提示反复反复发电图像时，从业人员通常会获得相同的，极为怀疑的模式的轻微变化。结果，大多数模型无法重新折断数据中固有的多样性，这阻碍了它们与CreativEtasks或为世界模型提供动力的能力。这项工作提出了一种非常有效的和一般的方法，可以将生成的图像从一组参考图像组中驱逐出去。这是通过在散布中引入数据驱动的驱除术语来实现的。

英国物理学家网首页

2025年6月17日 16:50

揭示云昼夜变化的偏见特征，以帮助气候模型调整和改进

Revealing bias characteristics of cloud diurnal variation to aid climate model tuning and improvement

云分数昼夜变化（CDV）调节地球系统的辐射预算和平衡，影响大气变量，例如温度和湿度，以及降水和热带气旋等物理过程。但是，气候模型中存在明显的CDV偏差。迄今为止，大多数模型评估都集中在每日平均云部分（CFR）上，而CDV受到了较少的关注。

AI新闻

2025年6月6日 09:09

Elevenlab的新V3非常适合音频书籍

Elevenlabs nya V3 kan vara perfekt för audioböcker

ElevenLabs刚刚推出了其最雄心勃勃的文本对数模型，以迄今为止 - 学生V3（Alpha）。学生V3与以前的模型具有明显不同，其能力通过深厚的情感范围传达出非常富有表现力的语音。该模型可以产生叹息，窃窃私语，大笑和反应的言论，以真正人性化的方式。以前曾经是一个限制[…] Elevenlab帖子的新V3非常适合首次出现在AI新闻中的音频书籍。

MIT Technology Review _人工智能

2025年5月30日 14:00

以规模为无缝AI加油

Fueling seamless AI at scale

从大型语言模型（LLM）到推理代理，当今的AI工具带来了前所未有的计算需求。数万亿参数模型，运行在设备上的工作负载以及成群以完成任务的代理商都需要新的计算范式，才能变得真正无缝且无处不在。首先，硬件和硅设计方面的技术进步对于突破边界至关重要……

Unite.AI

2025年5月27日 12:24

phi-4反应如何通过挑战“更大是更好”的神话来重新定义AI推理

How Phi-4-Reasoning Redefines AI Reasoning by Challenging “Bigger is Better” Myth

Microsoft最近发布的PHI-4-RONOAGING挑战是建立能够推理的人工智能系统的关键假设。自2022年引入了经过思考的推理以来，研究人员认为，高级推理需要具有数千亿个参数的非常大的语言模型。但是，微软的新的140亿个参数模型，PHI-4 - 策划了这种信念。使用以数据为中心的方法[…]帖子如何通过挑战“更大”的神话来重新定义AI推理，这是在Unite.ai上首先出现的。

亚马逊云科技 _机器学习

2025年5月14日 15:10

使用Amazon Sagemaker HyperPod食谱自定义DeepSeek-R1 671b型号 - 第2部分

Customize DeepSeek-R1 671b model using Amazon SageMaker HyperPod recipes – Part 2

在这篇文章中，我们使用食谱来微调原始的DeepSeek-R1 671b参数模型。我们通过使用Sagemaker培训工作和Sagemaker Hyperpod的逐步实施这些食谱来证明这一点。

英国物理学家网首页

2025年5月13日 15:40

突出的聊天机器人通常夸大了科学发现，研究表明

Prominent chatbots routinely exaggerate science findings, study shows

根据UWE Peters（Uwe Peters（Utrecht University）和Benjamin Chin-ee（加拿大加拿大剑桥大学/英国剑桥大学）的一项研究，总结了Chatgpt和DeepSeek等大型语言模型（LLM）在多达73％的病例中产生不准确的结论。研究人员测试了最杰出的LLM，并分析了数千个聊天机器人生成的科学摘要，揭示了大多数模型始终产生的结论比摘要文本中的结论更广泛。

Eos杂志

2025年5月13日 13:40

Beaufort Gyre的不确定命运

The Uncertain Fate of the Beaufort Gyre

气候模型对这种有影响力的海洋电流会发生的事情产生广泛的预测，但是大多数模型预测其将会削弱或停止。

Apple机器学习研究

2025年4月2日 00:00

韵律在口语中的作用回答

The Role of Prosody in Spoken Question Answering

口语理解迄今为止的研究通常具有沉重的文本视角。大多数数据集源自文本，然后将其合成到语音中，大多数模型通常依赖于语音的自动转录。这损害了韵律 - 语音信号所携带的添加信息超出了单词本身的语音，并且很难单独从文本中恢复。在这项工作中，我们调查了韵律在口头问题回答中的作用。通过在SLUE-SQA-5数据集上隔离韵律和词汇信息，该信息由…

AI新闻

2025年3月17日 17:38

Mistral释放小3.1重量分类中的最佳模型

Mistral släpper Small 3.1 den bästa modellen i sin viktklassi

Mistral Small 3是AI模型的新发布，其体重类别具有令人印象深刻的性能和效率。它代表了240亿个参数模型，不仅挑战了较大的模型，例如700亿参数，而且在许多情况下都超过了它们的速度和效率。奥德伦（Odellen）在其[…]帖子中脱颖而出，米斯特拉尔（Mistral）释放了小型3.1体重Classi中最佳模型首次出现在AI新闻中。

Apple机器学习研究

2025年2月14日 00:00

可扩展图神经网络中的转移学习，以改善物理模拟

Transfer Learning in Scalable Graph Neural Network for Improved Physical Simulation

近年来，基于图形神经网络（GNN）模型在模拟复杂物理系统方面显示出令人鼓舞的结果。但是，培训专用的图形网络模拟器可能会昂贵，因为大多数模型都局限于完全监督的培训。训练模型需要从传统模拟器产生的大量数据。如何应用转移学习来提高模型性能和训练效率。在这项工作中，我们引入了图形网络模拟器的预处理和转移学习范式。首先，我们提出了可扩展的图形u-net…

走向数据科学

2024年11月4日 19:35

在边缘设备上运行大型 AI 模型使用 Pixlr 创建的图像AI 模型，尤其是大型语言模型 (LLM)，需要大量的 GPU 内存。例如，对于 2024 年 7 月发布的 LLaMA 3.1 模型，内存要求如下：80 亿参数模型需要 16 GB 内存（16 位浮点权重）更大的 4050 亿参数模型需要 810 GB（使用 16 位浮点数）在全尺寸机器学习模型中，权重表示为 32 位浮点数。现代模型具有数亿到数百亿（甚至数千亿）的权重。训练和运行如此大的模型非常耗费资源：它需要大量的计算（处理能力）。它需要大量的 GPU 内存。它会消耗大量的能源，特别是，造成这种能源消耗的最大因素是：- 使用 3

Robogeek新闻频道（关于机器人技术的俄罗斯与世界新闻）

2020年9月29日 17:28

Mikron 和 NIIMA Progress 将发布首款俄罗斯 32 位微控制器，具有 RISC-V 内核和内置 GOST 物联网加密保护

Микрон и НИИМА «Прогресс» выпустят первый российский 32-битный микроконтроллер с ядром RISC-V и встроенной ГОСТ-криптозащитой для IoT

俄罗斯最大的微电子制造商和出口商米克朗与俄罗斯领先的数字和数模芯片开发设计中心NIIMA Progress将开发和生产首款采用RISC-V内核的国产32位微控制器以及符合 GOST 的内置功能加密保护。

Dave Giles的博客

2018年8月18日 13:15

七月阅读

July Reading

本月我的阅读清单与往常略有不同。我回顾了《计量经济学》和《计量经济学杂志》的往期期刊，并挑选了一些恰好发表在这些期刊 7 月期刊上的重要且有趣的论文。以下是我为您推荐的：Aigner, D.、C. A. K. Lovell 和 P. Schmidt，1977 年。《随机前沿生产函数模型的公式和估计》。《计量经济学杂志》，6，21-37。Chow, G. C.，1960 年。《两个线性回归系数集之间的相等性检验》。《计量经济学》，28，591-605。Davidson, R. 和 J. G. MacKinnon，1984 年。《logit 和 probit 模型的便捷规范检验》。计量经济学杂志，

数模关键词检索结果

动态语言理解：在参数和半参数模型中适应新知识

AI驱动的系统融合了文献，实验和机器人技术，以发现新材料

引入Gemma 3 270m：高效AI

屏蔽扩散：使用稀疏驱除态生成新颖和多样的图像

揭示云昼夜变化的偏见特征，以帮助气候模型调整和改进

Elevenlab的新V3非常适合音频书籍

以规模为无缝AI加油

phi-4反应如何通过挑战“更大是更好”的神话来重新定义AI推理

使用Amazon Sagemaker HyperPod食谱自定义DeepSeek-R1 671b型号 - 第2部分

突出的聊天机器人通常夸大了科学发现，研究表明

Beaufort Gyre的不确定命运

韵律在口语中的作用回答

Mistral释放小3.1重量分类中的最佳模型

可扩展图神经网络中的转移学习，以改善物理模拟

减小 AI 模型的大小

Mikron 和 NIIMA Progress 将发布首款俄罗斯 32 位微控制器，具有 RISC-V 内核和内置 GOST 物联网加密保护

七月阅读

XiaoMi-AI