为了处理现实世界中的噪声数据和不完整信息,我们将机器学习的通用性和抗噪性与知识表示和符号推理的严谨性和可重用性相结合,构建能够灵活应对未知情况的强大人工智能。我们还旨在将AI应用到以前从未应用过的领域,例如估计COVID-19的基因网络,预测辐射下的细胞动态以及基于媒体数据分析行为。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
摘要:至关重要的是要问,代理如何仅使用通过习惯性感觉运动经验获得的部分世界模型来生成行动计划,从而实现目标。尽管许多现有的机器人研究都使用了前向模型框架,但存在高自由度的泛化问题。当前的研究表明,采用生成模型的预测编码 (PC) 和主动推理 (AIF) 框架可以通过学习低维潜在状态空间中的先验分布来开发更好的泛化,该先验分布表示从习惯性感觉运动轨迹中提取的概率结构。在我们提出的模型中,学习是通过推断最佳潜在变量以及突触权重来最大化证据下限来进行的,而目标导向规划是通过推断潜在变量来最大化估计下限来完成的。我们提出的模型在模拟中使用简单和复杂的机器人任务进行了评估,通过为正则化系数设置中间值,证明了在有限的训练数据下学习中具有足够的泛化能力。此外,比较模拟结果表明,由于先验学习将运动计划的搜索限制在习惯轨迹范围内,因此所提出的模型在目标导向规划中优于传统的前向模型。
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
视觉问题回答(VQA)是一项具有挑战性的任务,需要通过关系推理对图像和问题进行跨模式理解,从而导致正确答案。为了弥合这两种方式之间的语义差距,以前的作品着重于所有可能对的单词区域对齐,而无需更多地关注相应的单词和对象。同样处理所有对,而无需考虑关系一致性,这是模型的性能。在本文中,为了对齐关系对并整合VQA系统的解释性,我们提出了一个跨模式的关系构建网络(CRRN),以掩盖不一致的注意力图,并突出相应单词对的全部潜在比对。具体来说,我们提出了两个相关性掩码,用于模式间和模式内突出显示,从而推断出图像中句子或区域中越重要的单词。可以通过掩盖未对齐的关系来增强一致对的关注相互关系。然后,我们提出了两个新颖的损失L CMAM和L SMAM,并具有明确的超级视觉,以捕获视觉和语言之间的细粒度相互作用。我们进行了彻底的实验来证明有效性并实现了GQA基准的竞争性绩效,以达到61.74%。
在离线模仿学习(IL)中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。但是,在许多现实情况下,例如机器人操纵,脱机数据集是从次优行为中收集的,没有奖励。由于稀缺的专家数据,这些代理通常会简单地记住较差的轨迹,并且容易受到环境变化的影响,因此缺乏对新环境推广的能力。要自动生成高质量的专家数据并提高代理的概括能力,我们提出了一个名为ffline i的框架,即通过进行反事实推断,并使用c oferfactual数据a u摄量(oilca)。尤其是我们利用可识别的变异自动编码器来生成反事实样本以进行专家数据增强。我们理论上分析了生成的专家数据的影响和概括的改进。此外,我们进行了广泛的实验,以证明我们的方法在两个d eep m ind c introl s uite基准测试基准上的分布性能和c ausal w orld w orld w orld w orld w orld w orld w orld基准的表现显着超过了各种基准。
下一代对话式 AI 系统需要:(1)逐步处理语言,逐个标记,以提高响应速度,并能够处理对话现象,例如暂停、重新开始和自我更正;(2)逐步推理,允许建立超出所说内容的意义;(3)透明且可控,允许设计人员和系统本身轻松确定特定行为的原因并针对特定用户组或领域进行定制。在这篇短文中,我们介绍了正在进行的初步工作,将动态语法(DS) - 一种增量语义语法框架 - 与资源描述框架(RDF)相结合。这为创建增量语义解析器铺平了道路,该解析器在话语展开时逐步输出语义 RDF 图。我们还概述了如何通过 RDF 将解析器与增量推理引擎集成。我们认为,这种 DS - RDF 混合体满足了上面列出的要求,产生了可用于构建响应式、实时、可解释的会话式 AI 的语义基础设施,可以针对特定用户群体(例如痴呆症患者)快速定制。