当AI不了解您时:全球不平等的新形式

在用于培训生成AI聊天机器人和其他基于AI的工具的数据中,世界上许多语言的代表性不足,这意味着从人工智能的基础模型中可能缺少整个社区。解决方案不仅是获得更好的数据,而且是更好的治理。

来源:Undark Magazine

在5月下旬,我在AI Chatbot中输入了一个提示,该聊天机器人包含Wolof的简单谚语,Wolof是一种主要在塞内加尔,冈比亚和毛里塔尼亚使用的西非语言。答复不是在Wolof中回来的,而是用破碎的法语回来。我再次尝试,这次是在豪萨(Hausa)的问候,这是一种在西非,尤其是尼日利亚和尼日尔的语言。 “对不起,我不明白,”我记得屏幕回答。没有错误消息。没有解释。对话的突然结束 - 礼貌,无菌和最终。在那一刻,我没有被误解。我被视为看不见。

i n 5月下旬

人工智能不需要监视或审查造成伤害。有时,它只需要忘记您的存在 - 不是出于恶意,而是因为它永远不会包括您。

引起伤害

大型语言模型或LLMS是今天的生成AI工具的基础,对似乎是“所有事物”的培训:从网站,社交媒体和其他数字资源中刮掉的大量数据集,然后对跨任务和语言提供一般性响应。但“一切”是一个神话。

生成ai

根据2025年的斯坦福AI指数,从模型生产到投资的全球AI活动非常集中在几个地区,主要是美国,中国和西欧的部分地区。不平衡不仅是经济,而且是认知。它定义了谁是编码的知识,以及被丢弃的知识。

Stanford AI索引

根据BBC的未来报告,世界上约有7,000种语言中只有7%反映在已发布的在线材料中,而数字化的代表性不足约为93%。联合国教科文组织指出,只有大约400种语言可以在线访问。机器智能的基础缺少了整个社区 - 不是因为他们的声音并不重要,而是因为他们的数据不是标准化,数字化或有利可图的。

BBC未来报告 400语言

这种缺席不是偶然的,而是系统性的。

研究 研究