我们介绍了Gemma 3,这是吉玛(Gemma)的轻型开放模型家族的多模式,规模从1到270亿个参数不等。此版本介绍了视觉理解能力,更广泛的语言覆盖范围和更长的上下文 - 至少128K令牌。我们还更改了模型的体系结构,以减少往往会在长上下文中爆炸的KV-CACHE内存。这是通过增加本地注意层与全球注意力层的比率并保持局部注意力的范围来实现的。Gemma 3型号经过蒸馏训练,并为预训练和指令固定版本提供了超过Gemma 2的性能。,我们的新型培训后食谱可显着改善数学,聊天,指导跟踪和多语言能力,从而使Gemma3-4B-IT与Gemma2-27b-it和gemma3-27b-it和gemma3-27b-it竞争与Geminii-1.5-Pro可比。我们将所有模型都发布给社区。
详细或为加工做出了贡献 - 就国际空间站多种结构发出的意见而言,就卫生部的要求(过去十年中大约40个)就国会问题,议会动议和对心理健康问题的账单提出了意见;他在国家生物伦理学委员会(National Bioethics委员会)就进化时代的精神残疾问题进行了试镜; 2017年,它应议会童年和青春期委员会的总统要求报告,涉及“未成年人的心理身体健康”,这与儿童在大火之地所谓的儿童中罕见的脑肿瘤的增加有关; 2024年,在儿童和青春期议会委员会中,童年和青春期行为和精神泥土的增加问题。
Gemma 有两种规模:一种是用于在 GPU 和 TPU 上高效部署和开发的 70 亿参数模型,另一种是用于 CPU 和设备上应用程序的 20 亿参数模型。每种规模都旨在解决不同的计算约束、应用程序和开发人员要求。在每种规模下,我们都会发布原始的、预先训练的检查点,以及针对对话、指令遵循、帮助性和安全性进行微调的检查点。我们会根据一系列定量和定性基准彻底评估我们模型的缺点。我们相信,发布预训练和微调的检查点将有助于彻底研究和调查当前指令调整机制的影响,以及开发越来越安全和负责任的模型开发方法。