对于学术和行业研究,自1980年代以计算机视觉为中心的系统的引入以来,AV技术已经取得了令人难以置信的进步[3]。在这里,本文将为自动驾驶汽车提供一些正式的定义。根据自动化水平,SAE国际自动驾驶汽车定义为六个不同的级别,其中0级没有AU量,并且5级是完全驾驶自动化[6]。尽管AV研究是一个经过充分探索的领域,但仍然没有5级或完全自主的车辆。这在很大程度上是由于计算机视觉系统的缺陷以及需要人类驾驶员存在的更复杂驾驶任务的复杂性。对于安全至关重要的系统,例如AV系统,无法造成小错误。为此,重要的是,AV系统可以根据对周围环境的准确解释做出安全有理的决策。在AV系统的感知端有几种技术,例如光检测和射程(LIDAR)系统和基于摄像机的系统。这些系统与深度学习技术(例如卷积神经网络(CNN))相结合,这些技术用于对传感器数据进行分类[14]。但是,像所有机器学习系统一样,由于噪声,训练数据之外的场景,传感设备的退化以及其他外部因素,误导始终可能发生错误分类。Kahneman在2011年提出的两种系统思维类型[11]。第一个是“系统1”,它是快速,本能和情感思维。因此,AV系统应朝着使用混合AI系统或将深度学习与逻辑推理结合的AI迈进,以帮助减轻完全基于深度学习的方法的失败和缺点。第二个是“系统2”,它是缓慢,有意和逻辑的。对于人类驾驶员,我们在驾驶场景中使用这两个系统。使用System 1 Thinking迅速完成我们周围的对象,并进行较小的驾驶操作。但是,当我们遇到一个不熟悉或危险的情况时,我们使用系统2思考来确定一种安全的方式来驾驶这种情况。在最佳的混合AV系统中,快速系统的1个任务(例如感知和分类)应通过深度学习来处理,而缓慢的系统2任务应通过综合推理来处理。推理系统也可以用于对
想象一下,观察某人挠自己的手臂;要了解为什么,需要其他上下文。但是,在附近发现蚊子会立即为该人的不适感提供一个可能的解释,从而减轻了需要进一步信息的需求。此示例说明了微妙的视觉提示如何挑战我们的认知能力,并证明了解释视觉场景的复杂性。为了研究这些技能,我们提供了视觉谜语,这是一种基准测试,旨在测试需要常识和世界知识的视觉谜语的视觉和语言模型。基准包括400个视觉谜语,每个谜语都具有由各种文本到图像模型,问题,地面真相答案,文本提示和归因创建的独特图像。人类评估表明,现有模型显着落后于人类绩效,即精度为82%,Gemini-Pro-1.5以40%的精度领先。我们的基准包括自动评估任务,以使评估可扩展。这些发现强调了视觉谜语作为增强视觉和语言模型解释复杂视觉场景功能的宝贵资源的潜力。
先进技术——尤其是人工智能和生成性人工智能——必将成为我们学校、经济、社会和民主的永久组成部分。美国教师联合会致力于不断支持教育工作者及其学生,共同努力将先进技术与我们会员的愿景和价值观明智、有效和合乎道德地融合在一起。我们计划在 2024 年 8 月完成这项工作的下一步。美国教师联合会/微软教育及其他领域人工智能研讨会将汇集来自全国各地的教育工作者和学校工作人员,共同塑造人工智能融入美国课堂的未来。研讨会将吸引大约 150-200 名不同的教育工作者和学校工作人员、顶尖教育技术开发人员、教育和人工智能领域的知名研究人员以及当地学生团体和家长团体的代表,确保丰富的观点交流。
我们提出了一种模仿人类智力的建筑系统的方法。我们的方法使用机器学习技术(包括生成AI系统)来从图片,文本等中提取知识,并将其表示为(预定的)谓词。接下来,我们使用S(CASP)自动平价推理系统以与人类的方式非常相似的方式来检查这种提取的知识和理由的一致性。我们已经将AP-PRACH用于构建系统,以进行视觉问题答案,特定于任务的聊天机器人可以“理解”人类对话并与他们进行交互交谈,以及依靠常识性推理的自主驾驶系统。本质上,我们的方法模仿了人类如何处理他们使用感应和模式识别来获取知识的知识(Kahneman的系统1思维,类似于使用机器学习模型),然后使用推理来得出结论,产生响应或采取行动(Kahneman的系统2思维,对自动推理来说,是对自动推理的)。