Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models
事实证明,扩展语言模型的容量是提高性能和解锁新功能的可靠方法。容量主要由两个维度定义:模型参数的数量和每个示例的计算量。虽然扩展通常涉及增加两者,但这些因素之间的精确相互作用及其对整体容量的综合贡献仍未完全了解。我们在稀疏混合专家 (MoE) 的背景下探索了这种关系,它允许扩展参数数量而不按比例增加……
Track LLM model evaluation using Amazon SageMaker managed MLflow and FMEval
在本文中,我们将展示如何使用 FMEval 和 Amazon SageMaker 以编程方式评估 LLM。FMEval 是一个开源 LLM 评估库,旨在为数据科学家和机器学习 (ML) 工程师提供代码优先体验,以评估 LLM 的各个方面,包括准确性、毒性、公平性、稳健性和效率。
CBO’s Waterfall Model for Projecting Discretionary Spending, January 2025
CBO 的交互式工具允许用户模拟该机构预测 10 年内不同类型支出的自由支配预算权限和支出的过程。
在这次采访中,我们与摩根大通高级应用 AI/ML 研究员 Swati Tyagi 进行了交谈,深入了解了她在人工智能和机器学习领域的历程。 Swati 拥有跨学术、金融和医疗的独特背景,她分享了自己对人工智能如何重塑行业的看法,包括彻底改变 [...]
ChatGPT vs Gemini vs Claude: Comparing Top AI Models [2025]
深入 ChatGPT、Gemini 与 Claude 的史诗之战!评估它们的功能、价格和能力,以发现哪种 AI 最能满足您的需求。ChatGPT、Gemini 与 Claude:比较顶级 AI 模型 [2025] 一文首先出现在 Weam - AI For Digital Agency 上。
Why DeepSeek’s AI Model Just Became the Top-Rated App in the U.S.
一家中国初创公司推出了一款更便宜、技术含量更低、可与最先进技术相媲美的 AI 助手,震惊了科技行业和金融市场
Create a SageMaker inference endpoint with custom model & extended container
这篇文章将引导您完成使用 NASA 的 Prithvi 模型在 SageMaker 上部署单个自定义模型的端到端过程。Prithvi 模型是 IBM 和 NASA 团队在连续的美国协调 Landsat Sentinel 2 (HLS) 数据上预先训练的首创时间 Vision 转换器。可以使用 mmsegmentation 库对其进行微调以进行图像分割,用于烧伤疤痕检测、洪水测绘和多时间作物分类等用例。
How a top Chinese AI model overcame US sanctions
AI 社区对新的开源推理模型 DeepSeek R1 议论纷纷。该模型由中国 AI 初创公司 DeepSeek 开发,该公司声称 R1 在多个关键基准上与 OpenAI 的 ChatGPT o1 匹敌甚至超越,但运行成本仅为其一小部分。“这可能是一个真正均衡的突破,......
German defense officials craft a digital über-model for the Bundeswehr
这些见解旨在为新的经营方式、简化标准化数据流等制定蓝图。
Toward video generative models of the molecular world
从模拟中的单个帧开始,新系统使用生成式 AI 来模拟分子的动力学,连接静态分子结构并将模糊图片开发成视频。
OpenAI har skapat GPT-4b Micro AI-modell för åldringsvetenskap
OpenAI 与长寿初创公司 Retro Biosciences 携手开发全新 AI 模型 GPT-4b Micro,在生物研究方面迈出了重大一步。此次合作标志着OpenAI进入科学发现和长寿研究领域。该项目始于大约一年前,当时 Retro Biosciences 与 OpenAI 洽谈潜在的合作。 OpenAI 的首席执行官 Sam Altman 曾 […]《OpenAI 为衰老科学创建了 GPT-4b 微型 AI 模型》一文首次出现在 AI 新闻上。
OpenAI Created an AI Model for Longevity Science
Antonio Regalado,《麻省理工评论》 当你想到人工智能对科学的贡献时,你可能会想到谷歌 DeepMind 的蛋白质折叠程序 AlphaFold
New model predicts solar storm particle acceleration and escape
太阳是一个主要由氢和氦组成的灼热气体球,其表面和大气层最外层的表面和外层大气温度在 10,000 至 360 万华氏度之间。这种强烈的热量导致太阳不断发射由带电亚原子粒子(主要是质子和电子)组成的等离子流。这些粒子具有巨大的能量,它们摆脱了太阳的引力,以太阳风的形式飘向太空。了解带电粒子如何与太阳其他瞬时能量喷发相互作用,可以帮助科学家研究超新星爆炸中发射的宇宙射线。
New AI Model Exposes Secrets of Genetic “Dark Matter” in Human Cells
哥伦比亚大学的研究人员创建了一个可以预测任何人类细胞基因活动的人工智能模型,推动了疾病研究和治疗。它已经揭示了儿童白血病背后的机制,并可能揭示隐藏的基因组功能。哥伦比亚大学瓦格洛斯医学院的研究人员开发了一种新的人工智能方法,可以准确预测基因活动 [...]
本文介绍了一种使用大型语言模型 (LLM) 进行端到端自动语音识别 (E2E-ASR) 的有效解码方法。虽然浅层融合是将语言模型纳入 E2E-ASR 解码的最常见方法,但我们在 LLM 方面面临两个实际问题。 (1) LLM 推理在计算上成本高昂。 (2) ASR 模型和 LLM 之间可能存在词汇不匹配。为了解决这种不匹配,我们需要重新训练 ASR 模型和/或 LLM,这在最好的情况下很耗时,而且在许多情况下是不可行的。我们提出了“延迟融合”,它应用 LLM 分数……
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models
生成高质量的 3D 内容需要能够学习复杂场景及其中真实物体的稳健分布的模型。最近基于高斯的 3D 重建技术通过以前馈方式预测 3D 高斯函数,在从稀疏输入图像中恢复高保真 3D 资产方面取得了令人印象深刻的结果。然而,这些技术通常缺乏扩散模型提供的广泛先验和表现力。另一方面,已成功应用于多视图图像去噪的 2D 扩散模型显示出生成广泛...
On the Modeling Capabilities of Large Language Models for Sequential Decision Making
大型预训练模型在不同模式下的推理和规划任务中表现出越来越好的性能,为利用它们解决复杂的顺序决策问题提供了可能性。在本文中,我们研究了大型语言模型 (LLM) 在各种交互领域中进行强化学习 (RL) 的能力。我们评估了它们制定决策策略的能力,无论是直接通过生成动作,还是间接通过首先生成奖励模型来训练具有 RL 的代理。我们的结果表明,即使没有……
Amazon Nova Foundation Models: Redefining Price and Performance in Generative AI
生成式 AI 通过实现独特的内容创建、自动化任务和引领创新来改变行业。在过去十年中,人工智能 (AI) 取得了显著进展。OpenAI 的 GPT-4 和谷歌的 Bard 等技术为生成式 AI 功能设定了新的基准。这些进步使企业能够简化复杂的运营、增强客户参与度并提高效率。[…] 文章 Amazon Nova Foundation Models:重新定义生成式 AI 的价格和性能首先出现在 Unite.AI 上。