大型语言模式(LLM)的最新突破已围绕少数数据富含数据的语言。扩大超越一流公民语言的突破需要什么?我们的工作介绍了Aya,这是一种大量多语言的生成语言模型,遵循101种语言的说明,其中50%以上被认为是较低的资源。aya在大多数任务上都优于mt0和bloomz,同时将语言数量增加了两倍。我们引入了广泛的新评估套件,以扩大99种语言的多语言评估的最新评估,包括歧视和生成性任务,人类评估以及模拟的胜利率,涵盖了涵盖任务和分发性能的效果。fur-hoverore,我们对我们模型的最佳芬特混合物组成,数据修剪以及毒性,偏见和安全性进行了详细研究。