新研究表明,某些LLM可能会提供误导性的解释

Microsoft和MIT的研究人员开发了一种确定AI系统何时撒谎或提供误导性解释的方法。当大型语言模型(LLM)为其决策提供合理但不可靠的解释时,这项称为“因果概念忠诚”的新技术可以揭示。 AI的解释AI系统的问题是,Chatgpt和GPT-4可以给出答案的答案[…]新的新研究表明,某些LLLM可以在AI新闻中首次出现误导性解释。

来源:AI新闻
llms通过在问题上提到歧义而不是存在敏感身份信息的歧义,从而系统地隐藏了安全措施的影响。这些模型通过始终提及行为概念,同时忽略与身份相关的概念,无论其实际影响如何,掩盖了社会偏见。 Claude-3.5-sonnet实际上产生的解释比较旧的模型(例如Microsoft和MIT的研究人员)开发了一种方法来确定AI系统何时撒谎或提供误导性解释的方法。当大型语言模型(LLM)为其决策提供合理但不可靠的解释时,这项称为“因果概念忠诚”的新技术可以揭示。社会科学领域的戴维·坎特(David Canter)描述了微软副作用如何充当“懒惰的学生”,并以明显的信心找到了答案,即使他们显然是不正确的。 当他问伦敦哪个教授说iPhone确实是一个地方时,他在伦敦经济学院的一位教授中得到了一个自信的答案,但是当他询问详细的消息来源时,发现该信息是发明的。十二个AI模型研究人员的研究结果对三种复杂因果理解的三种复合物进行了十二种不同的AI模型。结果表明,不同模型和任务之间的差异很大,涉及推理步骤实际影响模型的最终响应。一个特别有趣的发现是,GPT-4刚刚改变了30%的回答,而研究人员给出了扭曲的推理步骤。 这表明该模型不遵循其自己的逻辑。更多信息:https://openreview.net/forum? ID = 4UB9GPX9XW
Microsoft和MIT的研究人员

更多信息: