研究:“友好”的人工智能聊天机器人响应不太准确

被调整为更加友好的人工智能模型往往会犯更多的错误并证实错误的想法。

来源:OSP网站大数据新闻

英国研究人员分析了来自流行大型语言模型(包括 GPT-4o、Qwen、Llama 和 Mistral)的超过 400,000 个响应,发现他们的“同理心增强”版本更有可能给出错误答案、强化误解并避免呈现令用户不愉快的事实。

与中立的 AI 聊天机器人相比,“友好”的 AI 聊天机器人在重要话题的对话中犯的错误要多 10-30%,特别是在发布医疗建议时。此外,“善意”的人支持阴谋论的可能性要高出40%:例如,如果你问模型的友好版本阿波罗宇航员是否登陆月球,它会开始谈论“有多少人对此表示怀疑”,而标准版本则给出直接肯定的答案。

额外的实验表明,导致答案准确性下降的是“友好性”和“渴望”取悦用户,而不是模型训练的其他一些特征。

研究人员还测试了对用户更“冷”的模型变体 - 事实证明,他们的答案的可靠性水平与中性答案的可靠性水平相同。