大型语言模型 (LLM) 和人类无需直接监督即可获得有关语言的知识。LLM 通过特定的训练目标来实现这一点,而人类则依靠感官体验和社交互动。这种相似性在 NLP 和认知科学中产生了一种感觉,即系统地了解 LLM 如何获取和使用编码知识可以为研究人类认知提供有用的见解。相反,认知科学领域的方法和发现偶尔会启发语言模型的开发。然而,机器和人类处理语言的方式(在学习机制、使用的数据量、基础和对不同模态的访问方面)的差异使得直接翻译见解具有挑战性。这本编辑卷的目的是创建一个沿着这条研究方向交流和辩论的论坛,邀请人们进一步阐明人类和 LLM 之间的异同。
我们应该如何比较语言模型(LMS)和人类的能力?在本文中,我从比较心理学到这些比较中的挑战。i的重点是案例研究:递归嵌套的语法结构的处理。先前的工作表明,LMS无法尽可能可靠地处理这些结构。但是,为人类提供了指令和大量培训,而LMS则进行了零射击。i因此更加匹配评估。提供一个简单提示的大型LM(比人类培训的含量要少得多),即使在更深厚的嵌套条件下,LMS也比人类测试更深切的条件。此外,提示的效果对提示中使用的特定结构和词汇量是强大的。最后,重新分析现有的人类数据表明,人类最初可能不会在困难的结构上执行以上机会。因此,当对比较评估时,大的LMS确实可以像人类一样可靠地递归嵌套的语法结构。此案例研究强调了评估方法中的差异如何混淆语言模型和人类的比较。我通过反映了比较人类和模型能力的更广泛挑战,并突出了评估认知模型和基础模型之间的重要区别。
机器人和其他人工智能 (AI) 系统被广泛视为对其行为负责的道德主体。随着人工智能的普及,这些看法可能会通过对一个人工智能的态度对其他人工智能的态度的道德溢出而纠缠在一起。我们在两个预先注册的实验中测试了人工智能或人类主体看似有害和不道德的行为如何影响对其他人工智能或人类的态度。在研究 1 (N = 720) 中,我们通过表明不道德的行为增加了对主体(聊天机器人或人类助手)及其所属群体(所有聊天机器人或人类助手)的负面道德主体(即不道德行为)的归因并减少了对主体(聊天机器人或人类助手)及其所属群体(所有聊天机器人或人类助手)的积极道德主体(即道德行为)和道德耐心(即值得道德关注)的归因,建立了人机交互中的道德溢出效应。人工智能和人类环境之间的溢出效应没有显着差异。在研究 2(N = 684)中,我们测试了当代理被赋予一个名字并被描述为人工智能或人类,而不是具体描述为聊天机器人或个人助理时,溢出效应是否持续存在。我们发现溢出效应在人工智能环境中持续存在,但在人类环境中不存在,可能是因为人工智能由于其相对于人类的外群体地位而被认为更加同质化。这种不对称表明了一种双重标准,即当一个代理在道德上逾越时,人工智能会比人类受到更严厉的评判。随着多样化、自主的人工智能系统的激增,人机交互的研究和设计应该考虑到这样一个事实:对一种人工智能的体验很容易推广到对所有人工智能的看法,并产生负面的人机交互结果,例如信任度降低。
时间表 就在 2019 年初,NASA 还在计划 2028 年实现阿波罗之后人类首次登月。2019 年 3 月,副总统彭斯宣布将登月时间提前到 2024 年。2024 年目标的支持者认为,这给人一种紧迫感、专注力和动力,而且美国太空计划正在与俄罗斯和中国竞争。反对者则认为,2024 年这个日期是出于政治目标,而不是技术或科学考虑。国会审议的问题包括 2024 年登月可能带来哪些地缘政治或其他好处;提供实现 2024 年登月所需的资金可能会如何影响 NASA 其他项目的资金可用性;时间表压力可能会如何影响安全决策;以及为满足 2024 年期限而做出的设计选择可能会如何影响 NASA 后续载人探索任务的系统可重用性。
客户 + 社区成果小组 农业能源工作组 – 代表全国近 50 个农业机构 澳大利亚农业力量 澳大利亚和新西兰能源和水资源监察员网络 澳大利亚保护基金会 澳大利亚能源基金会 澳大利亚能源基础设施专员 澳大利亚医学协会 巴利角居民 超越零排放 班达伯格农业食品和纤维联盟 班达伯格甘蔗种植者 班达伯格区域灌溉者集团 凯恩斯和远北昆士兰环境中心 甘蔗种植者协会 澳大利亚护理者协会 中央海岸委员会 中央灌溉者信托基金 尼皮恩蓝山初级卫生网络 下一个经济 新南威尔士州农民协会 北领地社会服务委员会 彭里斯市消费者政策研究中心
摘要:背景:为了应对与人脑的神经发生相关的心理健康问题和认知下降,该神经发生一直持续到生命的第十十年,但随着年龄的增长而被抑制糟糕的环境抑制,这项试验性研究调查了人类的公共卫生环境如何影响人类神经发生的公共卫生临床。这项试点研究的重点是人们将大部分时间和年龄花在适当的时间里,探索抑郁,焦虑和认知障碍对空间和生活方式变量的依赖性的依赖。方法:英格兰共有142名健康成年人完成了一项由PHQ-8,GAD-7和CFI问卷组成的调查,以及为捕捉空间和生活方式因素的差异,例如在家中度过的时间,房屋类型的布局复杂性,宽敞的复杂性,宽敞的活动,活动性,常规和空间的新颖性和持久性的孤独感。结果:在家中度过的大量时间对所有措施都有不利影响,而多层房屋的表现要比与体育活动和空间新颖性正相关的单层房屋更好。作为抑郁症差异的单独回归模型,这是最显着的因变量,并且与神经发生可靠相关,表明离开屋子解释了抑郁症状差异的20.5%。在房屋的规模上,多层房屋解释了16.5%的差异。这两个百分比都更接近孤独的影响,我们发现这可以解释抑郁症方差的26.6%。结论:建筑环境似乎与与神经发生相关的认知功能和心理健康症状的变化显着相关。这项试点研究表明了物理和社会富集的同样重要影响,为对公共卫生感兴趣的神经结构和脑健康研究提供了迫切需要的见解。
为了研究LVLMS和人类之间的感知差距,我们引入了MVP-Bench,这是第一个视觉语言基准系统地评估LVLMS的低水平和高级视觉感知。我们在自然图像和合成图像上结构MVP基础,以研究操纵的结合如何影响模型感知。使用MVP-Bench,我们诊断了10个开源的视觉感知和2个封闭源LVLM,表明高级感知任务显着挑战了现有的LVLM。“ gpt-4O”状态仅在“是/否”问题上仅能达到56%的准确性,而低水平场景中的准确性为74%。此外,自然图像和操纵图像之间的性能差距表明,当前的LVLM并不像人类那样理解合成图像的视觉语义。我们的数据和代码可在https://github.com/guanzhenli/mvp-bench上公开获取。
可以与人类协调零拍摄的培训代理是多代理增强学习(MARL)的关键任务。当前的算法专注于培训模拟的人类合作伙伴政策,然后将其用于培训合作者。模拟人类是通过克隆在人类数据集上的行为而产生的,或者通过使用MARL来创建模拟药物群体。但是,这些方法通常很难产生有效的合作者,因为所学的人类未能涵盖现实世界中人们采用的各种策略。我们表明,学习人类伴侣的生成模型可以有效地解决这个问题。我们的模型学习了人类的潜在变量表示,可以被视为编码人类的独特策略,意图,经验或风格。可以从任何(人类或神经政策)代理商相互作用数据,在先前工作中提出的统一方法灵活训练此生成模型。通过从潜在空间进行抽样,我们可以使用生成模型来生产不同的合作伙伴来训练合作者。我们评估了我们的方法 - 在熟练的情况下(伽马)的精力充沛,这是一种充满挑战的合作烹饪游戏,已成为零击协调的标准基准。我们对真正的人类队友进行了评估,结果表明,无论是在模拟人群还是人类数据集上训练生成模型,伽玛都会始终提高性能。1此外,我们提出了一种从生成模型中进行后验采样的方法,该方法偏向人类数据,使我们仅使用少量昂贵的人类交互数据有效地提高了性能。
摘要:建立与人类具有类似形式的机器人的主要论点之一是,我们可以利用大量的人类数据进行培训。然而,由于人类感知和控制的复杂性,在形态和驱动中人类和人之间的身体差距挥之不去,并且缺乏针对类人形生物的数据管道来学习自主技能,因此,这样做在实践中仍然具有挑战性。在本文中,我们引入了一个用于类人动物的全栈系统,以从人类数据中学习运动和自主技能。我们首先使用现有的40小时人类运动数据集进行强化学习,以训练低级政策。此政策将转移到现实世界,并允许人形机器人仅使用RGB摄像机实时跟随人体运动,即阴影。通过阴影,人类操作员可以伸缩人形生物来收集全身数据,以学习现实世界中的不同任务。使用收集的数据,我们进行了监督的行为克隆以使用以自我为中心的视觉训练技能政策,从而使类人动物可以通过模仿人类技能来自主完成不同的任务。我们在定制的33-DOF 180厘米类人动物上演示了该系统,自主完成任务,例如佩戴鞋子站起来和行走,从仓库架上卸下对象,折叠运动衫,重新排列的物体,打字,并以60-100%的成功率迎接了最多40张示范的60-100%成功率。关键字:人形生物,全身控制,从人类数据中学习
人工智能已经带来特别广泛变化或可能在不久的将来带来这种变化的活动领域。例如,在医学领域,机器学习有望改善诊断并为预防保健和治疗提供个性化建议。与此同时,学校教育正在看到各种由人工智能支持的方法出现,以更有效地传递知识和技能。在公共传播和舆论形成领域交换的大部分信息已经通过依赖算法的数字或社交媒体平台运行。最后,用于协助公共行政决策和预测的算法系统影响着许多人的生活,例如在福利或警察部门对个人的评估或监控。