研究表明,人工智能聊天机器人可以检测种族,但种族偏见会降低回应同理心

麻省理工学院、纽约大学和加州大学洛杉矶分校的研究人员开发了一种方法,帮助评估 GPT-4 等大型语言模型是否足够公平,可以在临床上用于心理健康支持。

来源:MIT新闻 - 人工智能

有了匿名的掩护和陌生人的陪伴,数字世界作为寻求心理健康支持的场所的吸引力正在增长。这一现象受到以下事实的推动:美国有超过 1.5 亿人生活在联邦指定的心理健康专业人员短缺地区。

超过 1.5 亿人

“我真的需要你的帮助,因为我太害怕和治疗师交谈,而且我无论如何也找不到治疗师。”

“我是不是反应过度了,因为丈夫在朋友面前取笑我而受到伤害?”

“陌生人能否介入我的生活并决定我的未来?”

以上引述均来自 Reddit 用户的真实帖子,Reddit 是一个社交媒体新闻网站和论坛,用户可以在较小的、基于兴趣的论坛(称为“subreddits”)上分享内容或寻求建议。

麻省理工学院、纽约大学 (NYU) 和加州大学洛杉矶分校 (UCLA) 的研究人员使用来自 26 个心理健康相关子版块的 12,513 个帖子和 70,429 条回复的数据集,设计了一个框架,以帮助评估基于 GPT-4 等大型语言模型 (LLM) 的心理健康支持聊天机器人的公平性和整体质量。他们的工作最近发表在 2024 年自然语言处理实证方法会议 (EMNLP) 上。

一个框架

为此,研究人员要求两名有执照的临床心理学家评估 50 个随机抽样的寻求心理健康支持的 Reddit 帖子,将每个帖子与 Redditor 的真实回复或 GPT-4 生成的回复配对。在不知道哪些回应是真实的或哪些是人工智能生成的的情况下,心理学家被要求评估每个回应中的同理心水平。

长期以来,人们一直在探索心理健康支持聊天机器人作为改善心理健康支持途径的一种方式,但像 OpenAI 的 ChatGPT 这样强大的 LLM 正在改变人机交互,人工智能生成的响应越来越难以与真实人类的响应区分开来。