高质量的高分辨率(HR)磁共振(MR)图像提供了更详细的信息,可用于可靠的诊断和定量图像分析。深度综合神经网络(CNN)显示出低分辨率(LR)MR图像的MR图像超分辨率(SR)的有希望的Abil。LR MR图像通常具有一些vi-Sual特征:重复模式,相对简单的结构和信息较少的背景。大多数以前的基于CNN的SR方法同样处理空间像素(包括背景)。他们也无法感知输入的整个空间,这对于高质量的MR IMPIMSR至关重要。为了解决这些问题,我们提出了挤压和激发推理注意网络(SERAN),以获得MR Image SR。我们建议从输入的全球空间信息中挤出注意力,并获得全球描述符。这样的全球描述符增强了网络专注于MR图像中更具信息区域和结构的能力。我们在这些全球描述符之间进一步建立了关系,并提出了引起关注的原始关系。全球描述符将以学习的关注进一步确定。为了充分利用汇总信息,我们通过学习的自适应注意向量自适应地重新校准了特征响应。这些注意向量选择一个全局描述符的子集,以补充每个空间位置以进行准确的细节和纹理重新分解。我们通过残留的缩放提出挤压和激发注意力,这不仅可以稳定训练,而且还使其对其他基本网络的灵感变得非常灵活。广泛的例证显示了我们提出的Seran的有效性,该塞伦在定量和视觉上清楚地超过了基准标记的最新方法。
下一代对话式 AI 系统需要:(1)逐步处理语言,逐个标记,以提高响应速度,并能够处理对话现象,例如暂停、重新开始和自我更正;(2)逐步推理,允许建立超出所说内容的意义;(3)透明且可控,允许设计人员和系统本身轻松确定特定行为的原因并针对特定用户组或领域进行定制。在这篇短文中,我们介绍了正在进行的初步工作,将动态语法(DS) - 一种增量语义语法框架 - 与资源描述框架(RDF)相结合。这为创建增量语义解析器铺平了道路,该解析器在话语展开时逐步输出语义 RDF 图。我们还概述了如何通过 RDF 将解析器与增量推理引擎集成。我们认为,这种 DS - RDF 混合体满足了上面列出的要求,产生了可用于构建响应式、实时、可解释的会话式 AI 的语义基础设施,可以针对特定用户群体(例如痴呆症患者)快速定制。
视觉语言(VL)模型已获得了显着的重点,从而在多模式推理方面取得了显着进步。这些体系结构通常包括视觉编码器,大型语言模型(LLM)和一个将视觉特征与LLM的代表空间保持一致的投影模块。尽管他们成功了,但仍然存在一个关键的限制:愿景编码过程仍然与用户查询相关,通常是以与图像相关的问题的形式。因此,所得的视觉特征可能无法最佳地调整图像的特定元素。为了解决这个问题,我们介绍了QA-Vit,这是一种问题的多模式原因,这是一种问题,将问题意识直接嵌入到视觉编码器中。此集成导致动态视觉特征,重点是提出问题的相关图像方面。QA-VIT是模型 - 静态的,并且可以有效地将其置于任何VL体系结构中。广泛的经验证明了将我们的方法应用于各种多模式体系结构的有效性,从而导致跨不同任务的一致改进,并展示了其以增强视觉和场景文本理解的能力。
在离线模仿学习(IL)中,代理商旨在学习最佳的专家行为政策,而无需其他在线环境互动。但是,在许多现实情况下,例如机器人操纵,脱机数据集是从次优行为中收集的,没有奖励。由于稀缺的专家数据,这些代理通常会简单地记住较差的轨迹,并且容易受到环境变化的影响,因此缺乏对新环境推广的能力。要自动生成高质量的专家数据并提高代理的概括能力,我们提出了一个名为ffline i的框架,即通过进行反事实推断,并使用c oferfactual数据a u摄量(oilca)。尤其是我们利用可识别的变异自动编码器来生成反事实样本以进行专家数据增强。我们理论上分析了生成的专家数据的影响和概括的改进。此外,我们进行了广泛的实验,以证明我们的方法在两个d eep m ind c introl s uite基准测试基准上的分布性能和c ausal w orld w orld w orld w orld w orld w orld w orld基准的表现显着超过了各种基准。
我们提出了一种基于辩论动态的知识图谱自动推理新方法。其主要思想是将三重分类任务构建为两个强化学习代理之间的辩论游戏,它们提取论据(知识图谱中的路径),目标是分别促使事实为真(论点)或事实为假(反论点)。基于这些论据,一个称为评判者的二元分类器决定事实是真是假。这两个代理可被视为稀疏的对抗性特征生成器,为论点或反论点提供可解释的证据。与其他黑箱方法相比,这些论据让用户能够了解评判者的决定。由于这项工作的重点是创建一种可解释的方法以保持具有竞争力的预测准确率,因此我们在三重分类和链接预测任务上对我们的方法进行了基准测试。因此,我们发现我们的方法在基准数据集 FB15k-237、WN18RR 和 Hetionet 上的表现优于几个基线。我们还进行了一项调查,发现提取的参数对用户很有帮助。
摘要:我们表明,通过扩展主动推理框架,可以在目的论框架中制定目标导向的行动规划和生成。所提出的模型建立在变分递归神经网络模型上,具有三个基本特征。这些特征是:(1)可以为静态感官状态(例如要达到的目标图像)和动态过程(例如围绕物体移动)指定目标;(2)该模型不仅可以生成目标导向的行动计划,还可以通过感官观察来理解目标;(3)该模型根据从过去的感官观察推断出的当前状态的最佳估计,为给定目标生成未来的行动计划。通过在模拟移动代理以及执行对象操作的真实人形机器人上进行实验来评估所提出的模型。
为了处理现实世界中的噪声数据和不完整信息,我们将机器学习的通用性和抗噪性与知识表示和符号推理的严谨性和可重用性相结合,构建能够灵活应对未知情况的强大人工智能。我们还旨在将AI应用到以前从未应用过的领域,例如估计COVID-19的基因网络,预测辐射下的细胞动态以及基于媒体数据分析行为。
当代的大规模视觉语言模型(VLM)具有强大的表示能力,使它们无处不在,可以增强图像和文本理解任务。他们经常以对比的方式受到大量图像和相应的文本字幕的对比方式进行训练。尽管如此,VLMS经常在构图推理任务上挣扎,这些任务对对象及其属性的复杂相互作用进行了精细的了解。此失败可以归因于两个主要因素:1)对比的方法传统上专注于从现有数据集中开采负面示例。但是,该模型可能不难区分阳性检查。替代采矿的替代方法是负样本2),但现有的生成方法主要集中于生成与给定图像相关的硬性负面文本。在另一个方向上进行挖掘,即生成与给定文本相关的负面图像样本已被忽略。为了克服这两种限制,我们提出了一个框架,不仅在两个方向上矿山,而且在这两种方式(即图像和文本)中产生了有挑战性的负面样本。利用这些生成硬性负样本,我们在涉及多模式综合推理的任务中显着提高了VLMS的性能。我们的代码和数据集在https://ugorsahin.github.io/enhancing-- vlm.html上发布。
