这本备受期待的选集虽然肯定不是图灵测试的最终定论,但同样值得成为有关该测试的主要信息来源。它不仅包括图灵的经典论文,还包括迄今为止主要答复的精选,所有答复都由编辑撰写的一篇引人入胜且深刻的文章串联起来。Stuart M. Shieber 的名字因其研究而为计算语言学家所熟知,而计算机科学家则因其关于 Loebner 图灵测试竞赛的辩论而广为人知,该辩论发表在十年前的《ACM 通讯》上(Shieber 1994a、1994b;Loebner 1994)。1 我希望这本选集也能为哲学家们所熟知。该选集以图灵论文的历史“前身”开篇:笛卡尔的两篇作品——他的《方法论》第 1 章第 2 节。 V (1637) 和他的“致纽卡斯尔侯爵的信”——之后是拉美特里的《机器人》(1748)中的选段。第二部分包含了核心内容:图灵 1950 年在《心灵》上发表的论文“计算机器和智能”,附带三篇“短篇小说”:两篇图灵早期(1951 年)且很难找到的文章——“智能机器,一个异端理论”和“数字计算机能思考吗?”——以及 1952 年 BBC 对图灵、MHA 纽曼、杰弗里·杰斐逊爵士和 RB 布雷斯韦特的电台采访记录,“自动计算机能被认为思考吗?” Shieber 的论文集(图灵,1950 年)非常重视文本的神圣性,并充斥着学术资料,将他精心编辑的再版与原版进行了比较(顺便说一句,原版现在可以在线获取,由 JSTOR.org 提供)。第三部分,也是最后一部分,包含了图灵的《心灵》论文在该期刊上发表时的即时反应,随后是现在经典的回应和一些较新的重要论文,一些按时间顺序排列,另一些按逻辑顺序排列。第一个发表的回应是 Leonard Pinsky 的早期(1951 年)讽刺作品“机器会思考机器思考吗?” Shieber 为该作品提供了简短而诙谐的介绍。接下来是四部曲,包括 Keith Gunderson 的重要作品《模仿游戏》(1964 年)、Richard Purtill 的回应(《打败模仿游戏》,1971 年)以及 Geoffrey Sampson 的《为图灵辩护》和 PH Millar 的《论模仿游戏的要点》1973 年对 Purtill 的回复。再往前推几十年,是 Robert M. French 于 1990 年发表的《潜认知和图灵测试的局限性》。接下来,按逻辑顺序而非时间顺序,是三部曲,包括 John
在迅速发展的人工智能领域(AI)中的摘要,自然语言处理中大型语言模型(LLM)的前所未有的进步(NLP)提供了一个机会,可以重新审视形式和内容的机器智能传统指标的整个方法。由于机器认知评估的领域已经达到了模仿,因此下一步是有效的语言获取和理解。我们的论文提出了从既定的图灵测试转变为借助语言获取的全构图框架的范式转变,并从LLMS最近的进步中汲取了灵感。目前的贡献是对各个学科的出色工作的深刻贡献,指出需要保持跨学科的桥梁开放,并描述一种更健壮和可持续的方法。引言过去十年在人工智能的发展中见证了一个显着的加速,尤其是在自然语言处理领域。开创性的体系结构,例如Word2Vec(Mikolov等人2013)已经突破了我们以前认为可行的界限,诞生了可以用语言与人类无缝互动的先进的AI系统(Sejnowski,2023)。这些系统,包括从语音激活的虚拟助手到高度精确的翻译工具的应用程序,代表LLM的功率的收敛以及数据驱动和动态的系统理论的当前数字时代的景观(Brunton等人。2022)。2023)和未来职业(Tolan等人2021)。2012)。他们发掘和预测人类交流中错综复杂的模式的能力已经看到了我们与机器的互动的范式转移,因此必须将评估成为我们生活中必不可少的一部分(Sohail等人。自1950年艾伦·图灵(Alan Turing)于1950年成立以来,图灵测试一直是机器智能发展的标准(Turing,1950年)。然而,2014年勒布纳奖的公告声称该奖首次超过了图灵测试,这引发了有关该测试适当性的辩论(Shieber,2016年)。它引发了关于该测试是否确实评估机器智能还是仅仅是其模拟人类样子的能力的争议(Hoffmann,2022)。辩论的症结在于一个问题:机器是否能够理解人类语言,还是它的熟练程度仅反映了其模仿人类反应的程序能力?随着AI进步的当前轨迹,将这种对话从模仿转变为理解的时候已经成熟了(Cambria&White,2014年)。本文的目的是根据当前的21世纪需求,为一般讨论提供了更新的多方面贡献,并解决了非常具体的范式转变。The AI roadmap requires an adequate assessment system of Efficient Language Acquisition and Understanding Capabilities in Intelligent Machines (Agüera y Arcas, 2022), because such instrument will allow to systematically retrieve evidence to better answer the next questions on the landscape (Adams et al.文章的其余结构如下:我们从该主题中的许多学术工作中揭示了一项选择,这是当前工作的基础,然后继续进行 - 毫无障碍但非常相关的提及最近的研究,该研究涉及从非凡的不同角度和范围中进行“新的图灵测试”的需求。在下一部分中说明了框架,定义了测试设计要求,并提出了构建良好指标的过程。列出了其他未来挑战,最后在讨论中,我们以综合和建筑设想得出结论。为了消除所使用的术语的操作含义,提供了词汇表和补充材料。