AI如何将非英语说话者留在

新研究探讨了被AI工具排除的社区和文化,从而导致了错过的机会,并增加了偏见和错误信息的风险。

来源:斯坦福新闻

学者发现,大型语言模型遭受数字鸿沟:世界上的Changpts和Geminis对15.2亿英语的人来说效果很好,但他们在世界上9700万越南人的演讲者中表现不佳,对于150万人说UTO-aztecan语言Nahuatl的人甚至更糟。

主要的罪魁祸首是数据:这些非英语语言缺乏建立和培训有效模型的数据数量和质量。这意味着大多数主要的LLM主要使用英语(或其他高资源语言)数据或质量不佳的本地语言数据进行培训,而不是与世界其他各个环境和文化有关。

影响?不仅给您带来不便,而且是系统的排斥。整个文化和社区都被排除在AI革命之外,风险受到AI生成的错误信息和偏见的伤害,并失去了英语说话者通过有效技术获得的重要经济和教育机会。

在这次谈话中,斯坦福工程学院助理教授Sanmi Koyejo是有关该主题的新政策白皮书的高级作者,讨论了这种鸿沟的风险,重要的是,开发人员可以采取什么措施将其关闭。

Sanmi Koyejo 政策白皮书

哪种低资源语言是什么,为什么很难使LLM为其效果很好?

低资源语言是有关它们的计算机可读数据有限的语言。这可能意味着很少有一种语言的说话者,或者有说话者但没有很多数字化的语言数据的语言,或者没有说话者和数字数据的语言,而不是围绕数据进行计算工作的资源。例如,斯瓦希里语拥有2亿扬声器,但缺乏足够的数字化资源来吸引AI模型学习,而像威尔士(Welsh)这样的语言(较少的演讲者)受益于广泛的文档和数字保存工作。

为什么这个数字划分很重要?

这些解决方案中最有希望的是什么?