苹果情报基金会语言模型技术报告2025

我们介绍了两种多语言的多式联运基础语言模型,使苹果智能在苹果设备和服务上具有功能:(i)通过建筑创新(例如KV-CACHE共享和2位量化量化的培训)为Apple Silicon优化了〜3B参数的启用式启动模型; (ii)建立在新型的并行轨道混合物(PT-MOE)变压器上的可扩展服务器模型,该模型结合了轨道并行性,稀疏计算的混合物和交织的全球 - 单位关注,以使高质量与竞争性成本相互交流,以使苹果的私人云计算……

来源:Apple机器学习研究

我们介绍了两种多语言的多式联运基础语言模型,使苹果智能在苹果设备和服务上具有功能:(i)通过建筑创新(例如KV-CACHE共享和2位量化量化的培训)为Apple Silicon优化了〜3B参数的启用式启动模型; (ii)建立在新型的并行轨道混合物(PT-MOE)变压器上的可扩展服务器模型,该模型结合了轨道并行性,专家的混合物稀疏计算以及交错的全球 - 下环境关注,以使高质量与竞争性成本在Apple的私人云计算平台上提供高质量。这两种模型均经过大规模多语言和多模式数据集的培训,这些数据集是通过负责任的网络爬行,许可的语料库和高质量合成数据来源的,然后在新的异步平台上通过有监督的微调和增强学习进一步完善。最终的模型支持几种其他语言,同时了解图像和执行工具调用。在公共基准和人类评估中,服务器模型和设备模型匹配或超过尺寸的开放基线。

一个新的以Swift为中心的基础模型框架揭示了指导的生成,受限的工具调用和Lora适配器微调,使开发人员可以将这些功能与几行代码集成在一起。 Apple Intelligence模型中的最新进步基于我们负责的AI方法,其保障措施(例如内容过滤和特定于语言环境的评估)以及我们致力于通过诸如Private Cloud Compute之类的创新来保护用户的隐私。

本文提供了对Apple的设备和服务器基础语言模型的更新的技术详细信息,该模型于2025年6月9日在这篇文章中介绍。

发布