新的开源平台允许用户评估人工智能聊天机器人的性能

作者:Sarah Collins 一个由计算机科学家、工程师、数学家和认知科学家组成的团队开发了一个名为 CheckMate 的开源评估平台,该平台允许人类用户与大型语言模型 (LLM) 进行交互并评估其性能。研究人员在一项实验中测试了 CheckMate,其中人类参与者使用了三个 LLM——InstructGPT、ChatGPT 和 GPT-4 […]

来源:ΑΙhub

作者:Sarah Collins

作者:Sarah Collins

一个由计算机科学家、工程师、数学家和认知科学家组成的团队开发了一个名为 CheckMate 的开源评估平台,该平台允许人类用户与大型语言模型 (LLM) 交互并评估其性能。

CheckMate

研究人员在一项实验中测试了 CheckMate,其中人类参与者使用三个 LLM——InstructGPT、ChatGPT 和 GPT-4——作为解决本科数学问题的助手。

任何使用 LLM 的人,对于任何应用程序,都应该始终关注输出并亲自验证——Albert Jiang

任何使用 LLM 的人,对于任何应用程序,都应该始终关注输出并亲自验证——Albert Jiang

该团队研究了 LLM 在多大程度上能够帮助参与者解决问题。尽管聊天机器人的正确性和感知到的帮助性之间通常呈正相关,但研究人员也发现了 LLM 不正确但对参与者仍然有用的情况。然而,参与者认为某些不正确的 LLM 输出是正确的。这在针对聊天优化的 LLM 中最为明显。

研究人员建议,能够传达不确定性、对用户更正做出良好反应并能为其建议提供简明理由的模型可以成为更好的助手。鉴于 LLM 目前的缺点,人类用户应该仔细验证其输出。

研究结果发表在《美国国家科学院院刊》(PNAS)上,既可用于指导人工智能素养培训,也可用于帮助开发人员改进 LLM 以用于更广泛的用途。

结果

虽然 LLM 变得越来越强大,但它们也会犯错误并提供不正确的信息,这可能会产生负面影响,因为这些系统会越来越融入我们的日常生活。

了解更多

通过交互评估数学语言模型
  • 评估平台:CheckMate
  • CheckMate

    剑桥大学