大型语言模型(LLM)的最新突破已围绕少数数据富含数据的语言。扩大超越一流公民语言的突破需要什么?我们的作品介绍了AYA,这是一种大量多语言的生成语言模型,遵循101种语言的指导,其中50%以上被认为是较低的资源。aya在大多数任务上胜过MT0和Bloomz,同时涵盖了两倍的语言数量。我们引入了广泛的新评估套件,扩大了跨99种语言的多语言评估的最新评估,包括歧视性和生成性任务,人类评估以及模拟的获胜率,涵盖了执行任务和分布性能的既有。此外,我们对我们模型的最佳芬特混合物组成,数据修剪以及毒性,偏见和安全性进行了详细研究。我们在https://hf.co/choereforai/aya-101