人类想要阻止AI模型转变邪恶 - 这是

AI模型培训的新方法是否可以防止系统吸收有害数据?

来源:ZDNet | 机器人新闻
lyudmila lucienne/getty

ZDNET的钥匙外卖

    拟人化的新研究确定了称为角色向量的模型特征。 这有助于抓住不良行为而不会影响性能。而且,开发人员对模型为何幻觉和行为邪恶的方式还不够了解。
  • 拟人化的新研究确定了称为角色向量的模型特征。
  • 这有助于抓住不良行为而不会影响性能。
  • 仍然,开发人员对为什么模特幻觉和行为以邪恶的方式了解不足。
  • 为什么模型幻觉,提出暴力建议或过于同意用户?通常,研究人员并不真正知道。但是,拟人化只是找到了可以在这种行为发生之前帮助停止这种行为的新见解。

    在周五发布的一篇论文中,该公司探讨了模型如何表现出不良行为以及如何做什么。模型的角色可以在培训期间发生变化,并且一旦将用户输入开始影响它。在部署之前可能通过安全检查的模型可以证明这一点,但是一旦公开可用,就会开发自我的自我或行动 - 例如,当Openai召回GPT-4O时,GPT-4O过于满意。另请参阅Microsoft的Bing Chatbot在2023年透露其内部代号,或Grok最近的反犹太Tirade。

    召回GPT-4O太愉快 揭示了其内部代号,悉尼 Grok最近的反犹太Tirade

    它很重要

    AI的用法正在上升;从教育工具到自主系统,模型越来越多地嵌入到所有事物中,使它们的行为更加重要 - 尤其是当安全团队减少和AI法规并没有真正实现时。也就是说,唐纳德·特朗普总统最近的AI行动计划确实提到了解释性的重要性,或者是理解模型如何做出决定的能力 - 哪些角色向量增加了。

    安全团队减少 AI法规并不能真正实现 AI行动计划

    角色向量的工作方式

    预测邪恶行为