chatgpt4.5越过图灵测试阈值

机器从来没有能够在图灵(Turing)著名的智力考验中成为人类。终于改变了。

来源:《Discover》杂志
早在1950年,艾伦·图灵(Alan Turing)提出了一种优雅而又极具挑战性的方式来确定是否可以说“思考”。这种机器智能的衡量标准被称为图灵测试,在对话竞争中将人类和机器设置为机器,挑战人法官通过基于文本的互动来区分人造和真实智能。尽管有许多尝试,但没有人造系统令人信服地通过了这一测试。到目前为止,来自加利福尼亚大学圣地亚哥分校的Cameron Jones和Benjamin Bergen首次收集了经验证据,证明Openai的GPT-4.5是一种精致的大型语言模型(LLM),成功通过了Turing测试。 GPT-4.5不仅通过了,而且在特定条件下,它的表现优于说服参与者的人类。这项工作对社会,伦理和人类对智力本身的理解具有重要意义。人类v MachineThe Turing Tering Test将询问者与两个人的交流伙伴(一台人和一个机器)进行询问者,并通过文本同时进行。询问者的任务很简单:确定哪个对话伙伴是人类。但是,尽管计算语言学和机器学习方面取得了迅速的进步,但AI系统始终失败了这一看似直接的挑战。为了接受测试,琼斯和卑尔根招募了来自不同背景的284名参与者,包括本科生和多产的众筹工人,来自Prolific,来自Prulific,一家雇用AI-AI-AI-AI-FARMANS参与AI-FARED实验的实验者。研究人员对人类进行了几种现代AI模型,包括GPT-4O,Llama-3.1-405b和GPT-4.5。有趣的是,GPT-4.5成为赢家,但仅在指示采用“人类角色”时。在这些对话中,GPT-4.5被认为是73%的时间:琼斯和Berge