学习以场景图的形式从原始信息组成视觉关系是一项高度挑战的任务,这是由于上下文依赖性的,但是在依赖于场景所在的现场视觉应用程序中至关重要。但是,场景图生成(SGG)中没有当前的方法旨在为下流任务提供有用的图形。相反,主要重点主要是公开数据分布以预测更多细粒关系的任务。据说,所有的关系关系都不相同,至少其中一部分对现实世界应用没有用。在这项工作中,我们介绍了有效的SGG的任务,该任务旨在阐述相关关系的产生,从而促进了在下游任务(例如图像生成)中使用场景图的使用。为了支持进一步的方法,我们根据流行的Visual Genome数据集的注释提出了一个新的数据集,即VG150策划的新数据集。我们通过一组实验表明,该数据集包含比通常在SGG中使用的数据更高质量和多样的注释。最后,我们显示了从场景图1中生成图像生成的任务中该数据集的效率。
摘要:视听内容分发方面的最新技术进步为媒体档案馆实现其面向外部的抱负并轻松通过其内容吸引大量受众提供了许多机会。本文报告了 ReTV 研究项目的初步成果,该项目旨在开发视听收藏品再利用的新方法。它从三个角度解决了档案收藏品的再利用问题:想要改编视听内容以在社交媒体上分发的内容持有者(广播公司和媒体档案馆)、从线性电视转向在线平台消费视听内容的最终用户以及寻求可用于新作品的视听内容的媒体行业创意人员。本文介绍了三个用例,展示了基于 AI 的视频分析技术如何通过视频内容改编、个性化和细粒度检索来促进这些再利用场景。
最近,在利用人类反馈来增强图像产生方面取得了重大进展,导致迅速发展的研究领域的出现。但是,当前的工作面临着几个关键挑战:i)数据数量不足; ii)粗略的反馈学习;为了应对这些挑战,我们提出了Treereward,这是一种新型的多维,细粒度和自适应馈回学习框架,旨在改善扩散模型的语义和审美方面。具体来说,为了解决细粒反馈数据的限制,我们首先以“ AI + Exper”方式设计有效的反馈数据构建管道,产生约220万个高质量的反馈数据集,其中包含六个细粒度的尺寸。构建的,我们将构建一个树结构奖励模型,以有效利用细粒度的反馈数据,并在反馈学习过程中提供量身定制的优化。对稳定扩散V1.5(SD1.5)和稳定扩散XL(SDXL)的广泛实验证明了我们方法在增强一般且细粒度
摘要。使用脑电图 (EEG) 信号进行眼动追踪 (ET) 预测的主要挑战是基准数据和真实世界数据之间的分布模式差异以及来自多个来源的脑信号的意外干扰所导致的噪声。因此,提高机器学习模型在从 EEG 数据预测眼动追踪位置方面的稳健性对于研究和消费者使用都至关重要。在医学研究中,已经探索使用更复杂的数据收集方法来测试更简单的任务以解决这一问题。在本研究中,我们提出了一种用于 EEG-ET 数据收集的细粒度数据方法,以创建更强大的基准测试。我们利用粗粒度和细粒度数据训练机器学习模型,并在对分布模式相似/不同的数据进行测试时比较它们的准确性,以确定 EEG-ET 基准对分布数据差异的敏感性。我们应用协变量分布偏移来测试这种敏感性。结果表明,与基于粗粒度、二分类数据训练的模型相比,基于细粒度、基于向量的数据训练的模型不太容易受到分布变化的影响。
柯达 Vision 彩色中间片 5242/2242;富士 ETERNA-RDI 8511/4511;EASTMAN 细粒度复制全色负片 5234/5366;分离材料 2238
可变形图像配准是医学图像分析的基本步骤。最近,Transformer 已用于配准,其表现优于卷积神经网络 (CNN)。Transformer 可以捕获图像特征之间的长距离依赖性,这已被证明对配准有益。然而,由于自注意力的计算/内存负载高,Transformer 通常用于下采样特征分辨率,无法捕获全图像分辨率下的细粒度长距离依赖性。这限制了可变形配准,因为它需要每个图像像素之间精确的密集对应关系。没有自注意力的多层感知器 (MLP) 在计算/内存使用方面效率高,从而可以捕获全分辨率下的细粒度长距离依赖性。然而,MLP 尚未在图像配准中得到广泛探索,并且缺乏对医学配准任务至关重要的归纳偏差的考虑。在本研究中,我们提出了第一个基于相关感知 MLP 的配准网络 (CorrMLP) 用于可变形医学图像配准。我们的 CorrMLP 在新颖的粗到细配准架构中引入了关联感知多窗口 MLP 块,该架构可捕获细粒度多范围依赖性以执行关联感知粗到细配准。对七个公共医疗数据集进行的大量实验表明,我们的 CorrMLP 优于最先进的可变形配准方法。
最近,神经网络模型的解释引起了相当大的研究关注。在计算机Vi-Sion中,CAM(类激活图)基于基于cam的方法和LRP(层相关性传播)方法是两种common解释方法。但是,由于大多数基于CAM的方法只能产生全球权重,因此它们只能在深层进行粗粒的解释。LRP及其变体可以生成细粒度的解释。但是解释的忠诚太低了。为了应对这些挑战,在本文中,我们提出了FG-CAM(细粒度凸轮),该cam扩展了基于CAM的方法,以产生高粒度和高信仰。fg-cam使用具有分辨率差异的两个特征图层之间的关系,以逐渐增加解释分辨率,同时找到贡献的像素并滤除不贡献的像素。我们的方法不仅可以解决基于CAM的方法的短相处,而不会改变其特征,而且还产生了比LRP及其变体更高的忠诚度的细粒度解释。我们还以denoising呈现FG-CAM,这是FG-CAM的一种变体,能够产生较少的嘈杂解释,而忠实的解释几乎没有变化。实验结果表明,FG-CAM的性能几乎不受解释分辨率的影响。fg-cam在浅层和中间层中均显着优于基于CAM的方法,并且在输入层中均优于LRP及其变量。我们的代码可在https://github.com/dongmo-qcq/fg-cam上找到。