我们进入了一个快速发展的人工智能和机器学习时代,大型语言模型(LLM),视觉语言模型(VLM)和生成性AI越来越多地与我们的生活交织在一起。这些强大的工具具有彻底改变无数领域的潜力 - 从医疗保健到交通,教育到娱乐,我们的工作空间再到房屋。,但没有它的危险就不会产生这种巨大的潜力。我们目睹了由于缺乏鲁棒性,效率和公平性,AI/ML模型未达到我们的期望。例如,微软的AI聊天机器人的“ tay”开始掠夺攻势和不适当的内容,成为AI对虚假功能的敏感性的惊人例子。同样,自动驾驶汽车已经显示出对对抗扰动的脆弱性 - 从战略上放置在停车标志上的简单贴纸欺骗了这些AI模型,以将其错误分类。此外,当面对分配变化时,许多AI模型都步履蹒跚,无法将其从训练到现实世界的条件推广到现实状况,这证明了AI经常记录的斗争,从而识别出代表性不足的群体的面孔。这些模型的效率是增殖AI应用时代的另一个关键问题。由于计算资源和数据隐私是重大限制,我们需要精益且具有数据效率的模型。此外,随着AI模型继续影响医疗保健,招聘和执法等关键领域的决策,公平已成为不可谈判的要求。最近的变压器模型尽管具有令人印象深刻的功能,但由于其对计算资源的需求和广泛的培训数据而臭名昭著,这使我们迫切需要有效的模型设计,数据利用和学习过程。长期公平性尤其具有挑战性,因为这些AI系统经常会遇到随着时间的流逝而不断发展的数据分布,这可能会导致其公平标准偏离。
源文档的。 此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。 ,2024)。 044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document. 尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。 此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。 060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。 ,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效? 069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。。此类源归因042方法使用户可以检查输出的043可靠性(Asai等人。,2024)。044 However, text-based generation with source attri- 045 bution faces several issues: First, citing the source 046 at the document level could impose a heavy cogni- 047 tive burden on users ( Foster , 1979 ; Sweller , 2011 ), 048 where users often struggle to locate the core ev- 049 idence at the section or passage level within the 050 dense and multi-page document.尽管有051个粒度不匹配可以通过基于052通道引用的生成方法来解决 - 链接 - 053对特定文本块的答案,它需要非054个琐碎的额外工程工作,以匹配文档源中的块055。此外,源文档中的视觉高-056照明文本块对用户的直观更加直观,但是它仍然具有挑战性,因为它需要控制文档渲染,这是059,它并不总是可以访问,例如PDF方案中。060受到最新文档屏幕截图EM- 061床上用品检索范式的启发 - 放下文档 - 062 Ment Processing模块,直接使用VLM 063来保留内容完整性和编码Doc-064 UMent ument屏幕截图(Ma等人。,2024),065,我们询问源归因是否也可以在066中添加到如此统一的视觉范式中,以es- 067 tablish tablish tablish tablish a Tablish a Tablish a既是视觉,端到端可验证的RAG 068管道,既是用户友好且有效?069为此,我们提出了通过VI Sual s usce a ttribution(Visa)的检索增加的070代。071在我们的方法中,大型视觉模型072(VLM)处理单个或多个检索的文档图像,不仅为074产生了对074用户查询的答案,而且还返回了075框架内的相关区域内的相关区域。076如图1所示,此方法通过视觉上指示文档中的确切078位置来启用di-077 rect归因,从而允许用户在080原始上下文中快速检查生成答案的原始上下文中的支持证据。VLMS 081不受文档格式或渲染的限制,082
人工智能 (AI) 在 1956 年达特茅斯会议上被历史性地定义为能够从周围环境收集信息并在其中采取有效行动的人工生命形式。1970 年,麻省理工学院的明斯基团队开发了一套机器人系统,称为“Copy Demo”,它可以观察“积木世界”场景并成功重建观察到的多面体块结构(Winston,1972 年)。该系统由观察、规划和操作模块组成,表明每个子问题都极具挑战性,需要进一步研究。因此,人工智能领域分裂成几个专门的子领域。虽然这些子领域已经独立取得了重大进展,但这种过度简化主义模糊了人工智能研究的总体目标。为了超越现状,迈向更为复杂的 AI,我们强调接受亚里士多德整体哲学的重要性,该哲学强调各部分之间的整合要大于各部分之和。大型语言模型 (LLM) 和视觉语言模型 (VLM) 的最新进展已显示出在开放世界环境中识别语言和图像的巨大潜力(OpenAI,2023 年)。例如,LLM 的高级语义处理已被用于将人类指令分解为机器人的高级任务(Wake 等人,2023c、d)。然而,这些现有的多模态基础模型,即使对于 GPT-4V(ision),在实现需要动作预测的细粒度操作方面仍然面临挑战。因此,提出了一种新的具身代理基础模型(Durante 等人,2024b),该模型集成了语言能力、视觉认知、上下文记忆和直觉推理,并能自适应地预测具身动作。这是第一项使用从机器人、游戏和医疗保健任务中收集的具身数据预训练基础模型以开发通用 AI 代理的研究。具身代理被概念化为一个交互式系统,它通过其感知能力与人类交流并与环境交互,采取符合人类意图的动作。这就是为什么我们认为大型具身基础模型的进步是对代理 AI 的重大贡献,使系统能够从各种领域信息、动作、自然语言指令和多模态上下文中解析和推断人类意图。此外,
人工智能(AI)在1956年的达特茅斯会议上被罚款,因为它可以从其环境中收集信息并在其中采取有效的行动。Minsky在MIT的小组在1970年开发了一个机器人系统,称为“复制演示”,观察到了“阻止世界”场景,并成功地重建了观察到的Polyhe-dral块结构(Winston,1972)。由观察,计划和操纵模块组成的系统表明,这些子问题中的每一个都是高度挑战性的,需要进一步研究。因此,AI领域碎片分为专门的子场。尽管这些子领域在依赖方面取得了重大进展,但这种过度还原主义模糊了AI研究的总体目标。要超越当前状态朝着更复杂的AI迈进,我们强调了拥抱Aris-Totle的整体哲学的重要性,这强调了综合量超过其各个部分的总和。大语言模型(LLM)和视觉语言模型(VLM)的最新进展在识别开放世界上下文中识别语言和图像的潜力很大(OpenAI,2023年)。为止,LLM的先进语义处理已被用来将人类的指导分解为机器人的高级任务(Wake等人,2023c,d)。但是,即使对于GPT-4V(ISION),这些现有的多模式基础模型仍然面临着需要采取行动预测的细粒度操作方面的挑战。此外,因此,提出了一种新的体现的代理基础模型(Durante等人,2024b),它可以使语言水平,视觉认知,文本记忆,直觉推理,并可以预测具有适应性的体现动作。这是第一项通过从机器人技术,游戏和医疗保健任务中收集的全体数据来验证开发通用AI代理的基础模型的第一项研究。一种体现的代理被概念化为一种与人类通信并通过其感知能力与环境交互的媒介系统,采用与人类意图保持一致的行动。这就是为什么我们将大型体现基础模型的进步作为对代理AI的重要贡献的原因,使系统能够从各种域信息,动作,自然语言指令和多模式环境中解析和推断人的意图。
Dimitris Metaxas,博士 Dimitris Metaxas 是罗格斯大学计算机科学系的杰出教授。他是 NSF IUCRC CARTA 第二阶段主任和罗格斯大学计算生物医学、成像和建模中心 (CBIM) 主任,自 2010 年以来一直负责 NSF IUCRC。他的研究重点是新型人工智能、机器学习、计算机视觉方法和医学图像分析方法。他一直在使用生成对抗方法和扩散模型、大型基础模型 (LLM、VLM)、人类可解释的人工智能、半监督和无监督学习方法开发用于图像和文本生成的新型人工智能方法,并将它们应用于计算机视觉和生物医学应用中的许多问题。他的研究得到了 NSF、NIH、AFOSR、DARPA、HSARPA 和 ONR 的支持。他是 2024 年动态数据驱动应用系统 (DDDAS) 会议的共同组织者、2026 年 IEEE/CVF 计算机视觉和模式识别 (CVPR) 的总主席以及 2025 年医学成像信息处理 IPMI 的总主席。他是美国医学和生物工程师学会院士、IEEE 院士和 MICCAI 学会院士。Metaxas 博士于 1986 年以最高荣誉获得希腊雅典技术大学文凭,1988 年获得马里兰大学理学硕士学位,1992 年获得多伦多大学博士学位。1992 年至 2002 年,他担任宾大终身教授,并于早期任职,自 2002 年起加入罗格斯大学并创立 CBIM。他发表过 800 多篇文章,培养了 67 多名博士生,在人工智能、计算机视觉、计算机图形学(1998 年基于其学生 Nick Foster 开发的软件制作的《移动“蚂蚁”中的水场景》)和医学图像分析领域开创了多种方法,并在顶级会议上获得了无数奖项。他拥有 10 项专利。Yelena Yesha 博士在迈阿密大学,Yelena Yesha 博士是弗罗斯特数据科学与计算研究所 (IDSC) 的 Knight 基金会数据科学与人工智能捐赠主席。在 IDSC,Yesha 博士还是机器学习和人工智能项目主任、创新官和国际关系主管。在创新职位上,Yesha 博士协助教师与政府和工业伙伴合作与大学合作,并咨询教师如何将研究想法发展为创新。 Yesha 博士是美国国家科学基金会加速实时分析中心 (CARTA) 的创始主任,该中心是一个由美国国家科学基金会资助的产学研合作研究中心 (I/UCRC),旨在发展产学研和政府之间的长期合作伙伴关系。CARTA 与罗格斯大学新不伦瑞克分校、北卡罗来纳州立大学、马里兰大学巴尔的摩分校 (UMBC)、特拉维夫大学和迈阿密大学合作。Yesha 博士以作者或编辑的身份出版了 11 本书,并在著名期刊和会议论文集上发表了 200 多篇论文,她已获得总计超过 6500 万美元的外部资助。她目前正在与领先的工业公司和政府机构合作,研究区块链、网络安全和大数据分析领域的新创新技术,并将其应用于电子商务、气候变化和数字医疗。Yesha 博士是 IBM 高级研究中心的研究员。