下一代对话式 AI 系统需要:(1)逐步处理语言,逐个标记,以提高响应速度,并能够处理对话现象,例如暂停、重新开始和自我更正;(2)逐步推理,允许建立超出所说内容的意义;(3)透明且可控,允许设计人员和系统本身轻松确定特定行为的原因并针对特定用户组或领域进行定制。在这篇短文中,我们介绍了正在进行的初步工作,将动态语法(DS) - 一种增量语义语法框架 - 与资源描述框架(RDF)相结合。这为创建增量语义解析器铺平了道路,该解析器在话语展开时逐步输出语义 RDF 图。我们还概述了如何通过 RDF 将解析器与增量推理引擎集成。我们认为,这种 DS - RDF 混合体满足了上面列出的要求,产生了可用于构建响应式、实时、可解释的会话式 AI 的语义基础设施,可以针对特定用户群体(例如痴呆症患者)快速定制。
数字时代的数学教育(MEDE)系列探讨了数字技术支持数学教学和网络Geners学习的方式,也关注教育辩论。每卷都将在数学教育中解决一个特定问题(例如,视觉数学和网络学习;基于包容性和社区的电子学习;在数字时代的教学),以探索在数字技术的情况下探索有关教学和学习数学的基本假设。本系列旨在吸引各种各样的读者,包括:数学教育研究人员,数学家,认知科学家和计算机科学家,教育研究生,政策制定者,教育软件开发人员,管理人员和教师实践者。除其他外,本系列发表的高质量科学工作将解决与新一代数学学生的教学法和数字技术适用性有关的问题。该系列还将为读者提供更深入的了解,以了解创新的教学实践如何出现,进入课堂,并塑造成长为技术的年轻学生的学习。该系列还将介绍如何桥接理论和实践,以增强当今学生的不同学习方式,并将他们的动力和自然兴趣转变为对有意义的数学学习的额外支持。该系列为发现数字技术对学习成果的影响及其整合到有效的教学实践中的影响提供了机会;数学教育软件在教学和课程转换方面的潜力;以及数学电子学习的力量,是包容性和基于社区的,但个性化和实践的力量。
事件摄像机最近显示出对实用视觉任务的有益,例如行动识别,这要归功于其高度分辨率,功率效率和引起的隐私问题。然而,当前的研究是由1)处理事件的困难,因为它们的持续时间长时间和动态动作具有复杂而模棱两可的语义; 2)事件框架表示带有固定堆栈的冗余作用。我们发现语言自然传达了丰富的语义信息,从而使其在降低疾病的不确定性方面非常出色。鉴于此,我们提出了一种新颖的方法,这是第一次解决基于事件的动作识别的跨模式概念化的识别。我们的确切确切带来了两项技术贡献。首先,我们提出了一个自适应细粒事件(AFE)表示,以自适应地过滤固定对象的重复事件,同时保留动态的对象。这巧妙地增强了精确的性能,而无需额外的计算成本。然后,我们提出了一个基于概念推理的不确定性估计模块,该模块模拟了识别过程以丰富语义代表。尤其是,概念推理基于动作语义建立时间关系,而不必要的估计可以解决基于分布表示的动作的语义不确定性。实验表明,在PAF,HADDV和我们的SEACT数据集上,我们的确切确切识别获得了94.83%(+2.23%),90.10%(+2.23%),90.10%(+37.47%)和67.24%。
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
在离线模仿学习(IL)中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。但是,在许多现实情况下,例如机器人操纵,脱机数据集是从次优行为中收集的,没有奖励。由于稀缺的专家数据,这些代理通常会简单地记住较差的轨迹,并且容易受到环境变化的影响,因此缺乏对新环境推广的能力。要自动生成高质量的专家数据并提高代理的概括能力,我们提出了一个名为ffline i的框架,即通过进行反事实推断,并使用c oferfactual数据a u摄量(oilca)。尤其是我们利用可识别的变异自动编码器来生成反事实样本以进行专家数据增强。我们理论上分析了生成的专家数据的影响和概括的改进。此外,我们进行了广泛的实验,以证明我们的方法在两个d eep m ind c introl s uite基准测试基准上的分布性能和c ausal w orld w orld w orld w orld w orld w orld w orld基准的表现显着超过了各种基准。
视觉问题回答(VQA)是一项具有挑战性的任务,需要通过关系推理对图像和问题进行跨模式理解,从而导致正确答案。为了弥合这两种方式之间的语义差距,以前的作品着重于所有可能对的单词区域对齐,而无需更多地关注相应的单词和对象。同样处理所有对,而无需考虑关系一致性,这是模型的性能。在本文中,为了对齐关系对并整合VQA系统的解释性,我们提出了一个跨模式的关系构建网络(CRRN),以掩盖不一致的注意力图,并突出相应单词对的全部潜在比对。具体来说,我们提出了两个相关性掩码,用于模式间和模式内突出显示,从而推断出图像中句子或区域中越重要的单词。可以通过掩盖未对齐的关系来增强一致对的关注相互关系。然后,我们提出了两个新颖的损失L CMAM和L SMAM,并具有明确的超级视觉,以捕获视觉和语言之间的细粒度相互作用。我们进行了彻底的实验来证明有效性并实现了GQA基准的竞争性绩效,以达到61.74%。
高质量的高分辨率(HR)磁共振(MR)图像提供了更详细的信息,可用于可靠的诊断和定量图像分析。深度综合神经网络(CNN)显示出低分辨率(LR)MR图像的MR图像超分辨率(SR)的有希望的Abil。LR MR图像通常具有一些vi-Sual特征:重复模式,相对简单的结构和信息较少的背景。大多数以前的基于CNN的SR方法同样处理空间像素(包括背景)。他们也无法感知输入的整个空间,这对于高质量的MR IMPIMSR至关重要。为了解决这些问题,我们提出了挤压和激发推理注意网络(SERAN),以获得MR Image SR。我们建议从输入的全球空间信息中挤出注意力,并获得全球描述符。这样的全球描述符增强了网络专注于MR图像中更具信息区域和结构的能力。我们在这些全球描述符之间进一步建立了关系,并提出了引起关注的原始关系。全球描述符将以学习的关注进一步确定。为了充分利用汇总信息,我们通过学习的自适应注意向量自适应地重新校准了特征响应。这些注意向量选择一个全局描述符的子集,以补充每个空间位置以进行准确的细节和纹理重新分解。我们通过残留的缩放提出挤压和激发注意力,这不仅可以稳定训练,而且还使其对其他基本网络的灵感变得非常灵活。广泛的例证显示了我们提出的Seran的有效性,该塞伦在定量和视觉上清楚地超过了基准标记的最新方法。
从单个视图中恢复3D场景几何形状是计算机视觉中的基本问题。虽然经典的深度估计方法仅推断出2.5D场景表示为图像平面,但最新的基于辐射范围的aperach是重建完整的3D代表。然而,这些方法仍然在被占地的区域困难,因为没有视觉观察的几何形状需要(i)周围的语义知识,以及(ii)关于空间上下文的推理。我们提出了Kyn,这是一种单视场景重建的新方法,其原因是语义和空间上下文来预测每个点的密度。我们引入了一个视觉模块模块,以使用细粒度的语义信息丰富点特征。我们通过语言引导的空间注意机制在整个场景中汇总了点表示,以产生意识到3D语义环境的每点密度预测。我们表明,与预测每个3D点的密度相比,Kyn改善了3D形状的恢复。我们在Kitti-360上实现了最新的场景和对象重建结果,并且与先前的工作相比,零弹性概括的改进。项目页面:https://ruili3.github.io/kyn。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。