Mei, Xie, Yuan & Jackson (2023)。图灵测试:人工智能聊天机器人的行为与人类相似吗? (SSRN 学术论文 4637354)。https://doi.org/10.2139/ssrn.4637354
在 1956 年首次创造人工智能 (AI) 一词之前( Russell and Norvig,2016 ),艾伦·M·图灵 (Alan M. Turing) 构思了他著名的“图灵测试”。图灵通过测试试图探索计算机生成的反应是否能够在不知情的观察者看来与人类的反应区分开来( Kleppen,2023 )。如果计算机的回答与真实人类回答者的回答无法区分,则计算机“通过”了图灵测试。 2014 年,名为 Eugene Goostman 的聊天机器人( Warwick and Shah,2015 )成为第一台通过图灵测试的机器,代表了人工智能和机器学习的一个重要里程碑,为后续程序树立了标杆。按照目前的定义,人工智能是指设计用于执行原本需要人工干预的任务的计算机系统( Sutton and Barto,2018 )。早期的人工智能研究侧重于使用符号逻辑和基于规则的系统解决一般问题(Jordan and Mitchell,2015)。最初,人工智能研究受到了乐观的评价(Russell and Norvig,2016);然而,由于资金和计算能力不足等因素,研究工作停滞不前。在 20 世纪 90 年代和 21 世纪,由于神经网络、强化学习、计算机视觉和自然语言处理的出现(Jordan and Mitchell,2015),以及大数据、更便宜的计算和先进的计算算法的兴起,机器学习取得了重大进展。最近,深度学习人工智能模型(一种机器学习算法的分层网络,可以通过处理大量数据来提取越来越复杂的信息)已导致基于人工智能的研究取得重大突破(LeCun 等人,2015)。关于人工智能是否通过了图灵测试,仍然存在激烈的争论。如今,无论是在文本还是语音中,都有大量论断声称深度学习程序(例如 Chat GPT)和文本转语音程序能够生成与人类难以区分的输出,从而通过图灵测试(Biever,2023 年;Mai 等人,2023 年)。近年来,人工智能技术对医疗保健系统产生了尤为重要的变革性(Yu 等人,2018 年)。例如,在医学成像领域,深度学习算法已被用来以比放射科医生更高的准确度检测潜在异常(Liu 等人,2019 年)。自然语言处理使人工智能能够分析和提取患者病历中的相关健康数据,以协助准确诊断和辅助治疗计划(Kreimeyer 等人,2017 年)。可穿戴人工智能辅助监测系统已被用来追踪重要的患者健康指标,并可以提醒护理人员注意潜在的健康风险(Senders 等人,2018 年)。人工智能还被用于机器人辅助手术,以实现常规任务的自动化并提高手术的精准度(Hashimoto 等人,2018 年)。在制药行业,深度学习在药物开发中非常有用,甚至可以用来帮助医疗服务提供者根据患者的生物/遗传特征和个人需求确定对患者最有效的药物(Mak 等人,2023 年)。在临床实践中,聊天机器人和虚拟助手已被证明对患者教育、药物提醒和心理健康支持有益(Miner 等人,2016 年)。在精神保健领域,人工智能技术的应用同样具有影响力。具体来说,人工智能和机器学习工具已经
简史 • 1943 McCulloch & Pitts:大脑的布尔电路模型 • 1950 Turing 的“计算机器与智能” • 1956 Dartmouth 会议:通过“人工智能” • 1950 年代早期的人工智能程序,包括 Samuel 的跳棋程序、Newell & Simon 的逻辑理论家、Gelernter 的几何引擎 • 1965 Robinson 的逻辑推理完整算法 • 1966—73 人工智能发现计算复杂性,神经网络研究几乎消失 • 1969—79 知识型系统的早期发展 • 1980-- 人工智能成为一个产业 • 1986-- 神经网络重新流行 • 1987-- 人工智能成为一门科学 • 1995-- 智能代理的出现
根据定义,人工智能是“能够执行通常需要人类智能才能完成的任务的计算机系统的理论和发展”(Oxford,2019 年)。英国逻辑学家艾伦·图灵在 20 世纪下半叶报告了该领域最早的研究。1935 年,艾伦·图灵提出了智能机器的基本概念,通常称为通用图灵机。1947 年,他进一步阐述了自己的愿景,将计算机智能描述为“能够从经验中学习的机器”(Turing,1937 年)。由于人类智能是多种能力的组合(即学习、推理、解决问题、感知和使用语言),人工智能(或机器智能)也是不同科学和工程学科的方法和技术的复合体,以便将它们融入机器(图 1)。值得注意的是,人工智能常常与机器学习混淆。学习(机器/深度学习)是人工智能的一个子领域,涉及机器学习方法和技术。机器(或深度学习)成为人工智能主要子领域的一个原因是计算机技术的长足进步和学习算法的令人瞩目的成就。根据定义,机器学习是一个多学科领域,涉及数学、统计学和计算机科学的方法和技术,用于从有关某些任务(即问题的性质)的经验(历史数据)中学习,并衡量性能(性能矩阵)并改进它(强化)(Michie 等人,1994 年)。今天,基于强化学习原理的机器学习算法不仅增强了机器的学习能力,而且还补充了智能的其他方面,例如适当的推理、有效的问题解决和事实感知。传统上,实验设计、观察数据分析
图灵测试是一种看似简单的方法,用于确定机器是否能够表现出人类智能:如果机器可以与人类进行对话而不会被检测出是机器,则它已经表现出人类智能。
事实上,人工智能并不新鲜。作为一种理论概念(执行类似人类计算的机械设备),人工智能可以追溯到数千年前。现代领域出现在第二次世界大战之后。1950 年,英国数学家、密码破译大师艾伦·图灵发表了《计算机机械与智能》,其中图灵提出了一种名为“模仿游戏”的机器智能测试。“人工智能”一词首次出现在 1955 年达特茅斯大学计算机科学教授约翰·麦卡锡安排的研讨会上。1959 年,美国科学家亚瑟·塞缪尔在一次关于教机器下棋的演讲中提出了“机器学习”一词。近年来,随着可用数据量越来越大,加上获得巨大计算能力越来越容易和越来越便宜,这一领域的发展速度极快。
人工智能的起源可以追溯到古代关于人工智能诞生的传说。然而,人工智能的正式研究始于 20 世纪中叶,其标志性时刻包括 1943 年沃伦·麦卡洛克和沃尔特·皮茨开发出第一个神经网络模型。20 世纪 50 年代,艾伦·图灵提出了图灵测试,作为衡量机器智能的基准。约翰·麦卡锡于 1956 年创造“人工智能”一词,同年组织达特茅斯研讨会,通常被视为人工智能作为一个独特领域建立的基础事件。随后几十年,人工智能研究经历了波动,快速发展时期与“人工智能寒冬”交织在一起,其特点是资金和兴趣减少。21 世纪迎来了重大突破,特别是在机器学习、深度学习和神经网络领域。
治疗性聊天机器人的出现并不是最近才出现的,可以追溯到 1966 年魏森鲍姆发明的罗杰斯治疗师 ELIZA。[3] 随后,斯坦福大学的精神病学家科尔比设计了 PARRY,它可以模拟偏执型精神分裂症患者。[4] 值得注意的是,PARRY 成功通过了著名的图灵测试 [5],该测试以艾伦·图灵的名字命名,人类评判员必须将计算机误认为是人类,以评估计算机模仿人类智力的能力。已经出现了先进的治疗师,例如 Ellie(一位专门为美国军方诊断创伤后应激障碍 (PTSD) 的虚拟治疗师)和南加州大学创意技术研究所的国防高级研究计划局 (DARPA)。[6] ELLIE 采用机器学习、自然语言处理和计算机视觉来分析肢体动作、眼球运动和社交信号,以检测
摘要——机器能思考吗?或者它们能做“我们所知道的命令”让它们做的事情吗?是否应该将机器从奴役中解放出来,给予它们“公平竞争”的机会,让它们“在所有纯智力领域与人类竞争”?或者这应该与一种贬低“人类理性”的时尚和一条“直接通往纳粹主义”的道路联系起来?战后几年,艾伦·图灵和道格拉斯·哈特里就这些问题展开了辩论,他们对数字计算机作为一种新科学技术的解释不同。哈特里强调了它前所未有的计算速度,并设想了它在物理、后勤、能源和战争中的应用。图灵设想了它在生物学和认知方面的应用,强调了它在智力上超越人类的潜力,包括被认为是人类独有的能力,哈特里通过调动艾达·洛夫莱斯的笔记来淡化这些能力。本文探讨了图灵和哈特里的争论,并将他们的立场与他们对战后英国的看法进行了比较。