Dynamic language understanding: adaptation to new knowledge in parametric and semi-parametric models
为了研究半参数 QA 模型及其底层参数语言模型 (LM) 如何适应不断发展的知识,我们构建了一个新的大型数据集 StreamingQA,其中包含在给定日期提出的人工编写和生成的问题,这些问题将从 14 年的带时间戳的新闻文章中得到解答。我们每季度对我们的模型进行评估,因为它们会阅读预训练中未见过的新文章。我们表明,参数模型可以在不进行完全重新训练的情况下进行更新,同时避免灾难性的遗忘。
从大型语言模型(LLM)到推理代理,当今的AI工具带来了前所未有的计算需求。数万亿参数模型,运行在设备上的工作负载以及成群以完成任务的代理商都需要新的计算范式,才能变得真正无缝且无处不在。首先,硬件和硅设计方面的技术进步对于突破边界至关重要……
How Phi-4-Reasoning Redefines AI Reasoning by Challenging “Bigger is Better” Myth
Microsoft最近发布的PHI-4-RONOAGING挑战是建立能够推理的人工智能系统的关键假设。自2022年引入了经过思考的推理以来,研究人员认为,高级推理需要具有数千亿个参数的非常大的语言模型。但是,微软的新的140亿个参数模型,PHI-4 - 策划了这种信念。使用以数据为中心的方法[…]帖子如何通过挑战“更大”的神话来重新定义AI推理,这是在Unite.ai上首先出现的。
Customize DeepSeek-R1 671b model using Amazon SageMaker HyperPod recipes – Part 2
在这篇文章中,我们使用食谱来微调原始的DeepSeek-R1 671b参数模型。我们通过使用Sagemaker培训工作和Sagemaker Hyperpod的逐步实施这些食谱来证明这一点。
Mistral släpper Small 3.1 den bästa modellen i sin viktklassi
Mistral Small 3是AI模型的新发布,其体重类别具有令人印象深刻的性能和效率。它代表了240亿个参数模型,不仅挑战了较大的模型,例如700亿参数,而且在许多情况下都超过了它们的速度和效率。奥德伦(Odellen)在其[…]帖子中脱颖而出,米斯特拉尔(Mistral)释放了小型3.1体重Classi中最佳模型首次出现在AI新闻中。
Reducing the Size of AI Models
在边缘设备上运行大型 AI 模型使用 Pixlr 创建的图像AI 模型,尤其是大型语言模型 (LLM),需要大量的 GPU 内存。例如,对于 2024 年 7 月发布的 LLaMA 3.1 模型,内存要求如下:80 亿参数模型需要 16 GB 内存(16 位浮点权重)更大的 4050 亿参数模型需要 810 GB(使用 16 位浮点数)在全尺寸机器学习模型中,权重表示为 32 位浮点数。现代模型具有数亿到数百亿(甚至数千亿)的权重。训练和运行如此大的模型非常耗费资源:它需要大量的计算(处理能力)。它需要大量的 GPU 内存。它会消耗大量的能源,特别是,造成这种能源消耗的最大因素是:- 使用 3