新的chatgpt测试成功并不意味着AI现在像人类一样聪明

在过去的一周中,关于AI聊天机器人正式通过图灵测试的头条新闻。这些新闻报道是基于加州大学圣地亚哥分校的两名研究人员最近进行的预印本研究,其中四个大语言模型(LLMS)通过图灵测试进行了。一种模型 - OpenAi的[…]

来源:宇宙杂志

在过去的一周中,关于AI聊天机器人正式通过图灵测试的头条新闻。

几个头条 正式通过

这些新闻报道是基于加州大学圣地亚哥分校的两名研究人员最近进行的预印本研究,其中四个大型语言模型(LLMS)通过图灵测试进行了。一种模型(OpenAI的GPT-4.5)被认为与人类的70%以上的时间没有区别。

新闻报道 最近的预印本研究

Turing测试已被普及为机器智能的最终指标。但是,关于该测试的有效性存在分歧。实际上,它具有有争议的历史,它引起了人们对测量机器智能的真正有效性的质疑。

普及

那么这对这项新研究的意义意味着什么?

该研究发现了什么?

认知科学家卡梅隆·琼斯(Cameron Jones)和本杰明·卑尔根(Benjamin Bergen)的预印本研究于3月出版,但尚未经过同行评审。它测试了4个LLM:Eliza,GPT-4O,Llama-3.1-405b和GPT-4.5。

Eliza GPT-4O Llama-3.1-405b GPT-4.5

测试包括参加八轮对话的参与者,在这些对话中,他们充当询问者,同时与两个证人交换文本消息。一个目击者是人类,另一个是法学硕士。大约284名参与者被随机分配为审讯者或证人。

参与者必须在拆分屏幕上同时与两个证人互动五分钟,并且测试接口模仿了传统的消息接口。在这种互动之后,他们决定哪位目击者是人类,哪个是AI聊天机器人。

参与者认为GPT-4.5是人类的73%,而Llama-3.1-405b则是56%的时间。其他两种模型(Eliza和GPT-4O)分别愚弄了参与者23%和21%的时间。

Turing测试到底是什么?

智能机械 计算机械和智能

为什么有争议?