AI Toxicity: A Major AI Risk

本文探讨了人工智能毒性,这是一种复杂的社会技术现象,与其他人工智能风险的交叉率很高。这篇文章首次发表在电子学习行业。

来源:eLearning行业 | 在线教育博客
事情并不总是看起来的那样 人工智能 (AI) 风险的一个重要子集是 AI 毒性,其中包括机器学习系统产生的破坏性、有偏见或不稳定的输出。随着大规模神经架构(尤其是基于 Transformer 的基础模型)继续在高风险领域传播,对有毒语言行为、代表性偏见和对抗性利用的担忧急剧增加。人工智能毒性是一种复杂的社会技术现象,由统计学习过程、数据分布、算法归纳偏差和动态用户模型反馈循环的相互作用产生。它不仅仅是错误训练数据的产物。人工智能毒性是如何产生的?大型语言模型(LLM)从极其庞大、多样化的主体中获取潜在表征的过程是导致人工智能毒性的原因。这些模型允许无意中编码破坏性的刻板印象、歧视倾向或文化敏感的相关性,因为它们依赖于统计关系而不是有根据的语义理解。当这些潜在嵌入出现在生成的语言中并导致可能具有种族主义、性别歧视、诽谤性或其他对社会有害的输出时,毒性就会变得明显。因为有毒或有偏见的信息可能会传播下游错误并加剧系统差异,这对于自主或半自主决策支持系统来说尤其成问题。从计算的角度来看,毒性的产生部分是由于高维参数空间中不受控制的泛化。过度参数化的架构表现出突发行为——一些是有益的,另一些是有害的——源于学习令牌、上下文向量和注意力机制之间的非线性交互。当这些交互与训练分布的有问题的区域一致时,模型可能会生成偏离规范道德标准或组织标准的内容