生成的零拍学习(ZSL)学习了一个生成器来合成看不见类的视觉样本,这是推进ZSL的有效方法。然而,现有的发电方法依赖于高斯噪声和预定义的语义原型的条件,这限制了仅在特定的看到类中优化的发电机,而不是对每个视觉实例进行特征,从而导致概括不良(例如,过度适用于可见的类)。为了解决这个问题,我们提出了一种新颖的视觉启动动态语义原型方法(称为VADS),以增强发电机来学习准确的语义 - 视觉映射,以充分利用视觉效果的知识为语义条件。详细说明,VADS由两个模块组成:(1)视觉吸引域知识学习模块(VDKL)了解视觉特征的偏见和全局先验(称为域的视觉知识),这些偏见取代了纯净的高斯噪声,以提供更丰富的先验噪声信息; (2)以视觉为导向的语义更新模块(VOSU)根据样本的视觉表示更新语义原型。最终,我们将它们的输出作为动态语义原型串联,作为发电机的条件。广泛的实验表明,我们的VAD在三个突出的数据集上实现了上升的CZSL和GZSL prounperces,并且在Sun,Cub和Awa2上分别胜过其他最先进的方法,其平均分别增加了6.4%,5.9%,5.9%和4.2%。
和一个锅的不同)或意图(例如通过刀与使用它进行切割),我们人类可以毫不费力地描绘出与日常生活中日常物体的这种互动。在这项工作中,我们的目标是构建一个可以同样生成合理的手动配置的计算系统。具体来说,我们学习了一个基于扩散的常规模型,该模型捕获了3D相互作用期间手和对象的关节分布。给定一个类别的描述,例如“握着板的手”,我们的生成模型可以合成人手的相对配置和表达(见图1个顶部)。我们解决的一个关键问题是,该模型是什么好的HOI表示。通常通过空间(签名)距离场来描述对象形状,但人的手通常是通过由发音变量控制的参数网格建模的。我们提出了一个均匀的HOI表示,而不是在生成模型中对这些不同的代表进行建模,并表明这允许学习一个共同生成手和对象的3D扩散模型。除了能够合成各种合理的手和物体形状的综合外,我们的扩散模型还可以在跨任务的辅助推理之前作为通用,而这种表示是所需的输出。例如,重建或预测相互作用的问题对于旨在向人类学习的机器人或试图帮助他们的虚拟助手来说是核心重要性。重建的视频重新投影错误)或约束(例如我们考虑了这些行沿着这些行的两个经过深入研究的任务:i)从日常交互剪辑中重建3D手对象形状,ii)鉴于任意对象网格,合成了合理的人类grasps。为了利用学到的生成模型作为推论的先验,我们注意到我们的扩散模型允许在任何手动对象配置给定的(近似)log-likelihood梯度计算(近似)log-likelihoodhoodhood。我们将其纳入优化框架中,该框架结合了先前的基于可能性的指南与特定于任务的目标(例如已知对象网格的合成)推理。虽然理解手动相互作用是一个非常流行的研究领域,但现实世界中的数据集限制了3D中这种相互作用的限制仍然很少。因此,我们汇总了7种不同的现实世界交互数据集,从而导致157个对象类别的相互作用长期收集,并在这些范围内训练共享模型。据我们所知,我们的工作代表了第一个可以共同生成手和对象的生成模型,并且我们表明它允许综合跨类别的各种手动相互作用。此外,我们还经验评估了基于视频的重建和人类掌握合成的任务的先前指导的推断,并发现我们所学的先验可以帮助完成这两个任务,甚至可以改善特定于特定于任务的状态方法。
在班级学习(CIL)方案中,由于阶级的偏见对当前任务的偏见引起的灾难性遗忘者长期以来一直引起了重大挑战。它主要由判别模型的特征引起。随着生成性多模式模型的日益普及,我们将探索用CIL生成的歧视模型代替歧视模型。,从歧视到生成模式过渡需要解决两个关键挑战。主要挑战在于将生成的文本信息转移到不同类别的分类中。在方面,它需要在生成框架内制定CIL的任务。为此,我们提出了一种新颖的生成性多模式模型(GMM)框架,用于类增量学习。我们的方法直接使用改编的生成模型为图像生成Labels。获得详细的文本后,我们使用文本编码器来阐述文本特征,并采用匹配的功能来确定最相似的标签与分类的标签。在传统的CIL设置中,我们在长期序列的任务方案中取得了更好的影响。under少数CIL设置,与所有当前最新方法相比,我们的精度至少提高了14%,而遗忘的遗忘明显较小。我们的代码可在https://github.com/doubleclass/gmm上找到。
在最近的研究中,已对开放式摄制对象检测任务进行了大量关注,旨在概括训练期间标记的类别的有限级别,并检测推理时任意类别名称所描述的对象。与常规对象检测相比,打开的词汇对象检测在很大程度上扩展了对象检测类别。但是,它依赖于计算图像区域与一组具有验证视觉和语言模型的任意类别名称之间的相似性。这意味着,尽管具有开放式的性质,但该任务仍然需要在推理阶段的预定义对象类别。这提出了一个问题:如果我们在推理中对对象类别没有确切的了解,该怎么办?在本文中,我们称之为新的设置为生成性开放式对象检测,这是一个更普遍和实际的问题。为了解决它,我们将对象检测形式为生成问题,并提出了一个名为generateu的简单框架,该框架可以检测密集的对象并以自由形式的方式生成其名称。尤其是,我们采用可变形的DETR作为区域促成生成器,其语言模型将视觉区域转换为对象名称。为了评估自由形式的对象划分任务,我们介绍了一种评估方法,旨在定量测量生成量的性能。广泛的实验表明我们的生成量强烈的零射击性能。代码可在以下网址获得:https://github.com/foundationvision/generateu。例如,在LVIS数据集上,我们的GenerateU在推理过程中属于类别名称,即类别名称无法看到类别名称,即使类别名称看不见类别名称,我们的GenerateU也可以与开放式唱机对象检测方法GLIP相当。
深层生成模型(DGM)是用于学习数据表示的多功能工具,同时合并了域知识,例如条件概率分布的规范。最近提出的DGMS解决了比较来自不同来源的数据集的重要任务。这样的示例是对比分析的设置,该分析的重点是描述与背景数据集相比富含目标数据集中的模式。这些模型的实际部署通常假定DGM自然推断出可解释的和模块化的潜在表示,这在实践中是一个问题。因此,现有方法通常依赖于临时正规化方案,尽管没有任何理论基础。在这里,我们通过扩展非线性独立组件分析领域的最新进展,提出了对比较DGM的可识别性理论。我们表明,尽管这些模型在一般的混合功能上缺乏可识别性,但当混合函数在零件上时,它们令人惊讶地变得可识别(例如,由Relu神经网络参数化)。我们还研究了模型错误指定的影响,并从经验上表明,当未提前知道潜在变量的数量时,以前提出的用于拟合比较DGM的正则化技术有助于识别性。最后,我们引入了一种新的方法,用于拟合比较DGM,该方法通过多目标优化改善了多个数据源的处理,并有助于使用约束优化以可解释的方式调整正规化的超参数。我们使用模拟数据以及通过单细胞RNA测序构建的细胞中的遗传扰动数据集以及最新的数据集验证了我们的理论和新方法。关键字:非线性ICA;深层生成模型;变分推断;解开;
人类的视野。这种能力不仅对于诸如对象操纵和导航之类的实践日常任务至关重要,而且在培养人类创造力方面起着关键作用,使我们能够以深度,幽默感和沉浸感进行设想和制作对象。在本文中,我们重新审视了视图综合问题并提出:我们如何学习一般的3D表示以促进可扩展的视图综合?我们试图从以下两个观察结果中调查这个问题:i)到目前为止,目前的最新进展主要集中在训练速度和/或提高效率上[12,18,18,31,48]。值得注意的是,这些进步都共同依赖于体积渲染以进行场景优化。因此,所有这些视图合成方法固有地是场景特定的,再加上全局3D空间坐标。相比之下,我们主张一个范式移动,其中3D表示仅依赖场景颜色和几何形状,学习隐式表示无需地面真相3D几何形状,同时也从任何特定坐标系统中具有重要的独立性。这种区别对于实现可扩展性至关重要,以超越场景指编码所施加的约束。ii)本质上,视图合成更适合作为有条件的生成建模问题,类似于生成图像中的图像[25,60]。随着可用信息的增加,生成的场景变得更加限制,逐渐收敛于地面真相表示。仅给出一组稀疏的参考视图时,所需的模型应提供多个合理的预测,并利用生成表述中的固有随机性,并从自然图像统计信息和从其他图像和对象中学到的语义先验中获取见解。值得注意的是,现有的3D生成模型通常仅支持单个参考视图[20 - 23,44]。我们认为,更理想的生成配方应具有不同级别的输入信息。在这些见解的基础上,我们引入了Eschernet,这是一种图像到图像的条件扩散模型,用于视图合成。Eschernet利用了使用Dot-Product自我注意力的变压器体系结构[51],以捕获参考对目标和目标对目标视图一致性之间的复杂关系。Eschernet中的一个关键创新是相机位置编码(CAPE)的设计,专门代表4个DOF(以对象)和6个DOF相机姿势。这种编码的速率空间结构进入令牌,使模型能够仅基于其相对摄像机的转换来计算查询和密钥之间的自我注意事项。总而言之,Eschernet表现出以下非凡的特征:•一致性:埃舍内特固有地整合了视图的固定性,这要归功于相机位置编码的设计,从而鼓励了对目标对目标和目标视图视图的一致性。
文本对图像(T2I)合成是一项艰巨的任务,该任务是对文本和图像域及其关系进行建模。最近作品实现的图像质量的实质性改进为Nuberon应用程序铺平了道路,例如语言辅助图像编辑,计算机辅助设计,基于文本的图像检索和培训数据增强。在这项工作中,我们提出了一个简单的问题:与逼真的图像一起,我们是否可以以一种不受影响的方式获得任何有用的副产品(例如前景 /背景或多类分割掩码,检测标签,检测标签),这也将使其他计算机视觉任务任务和应用受益?试图回答这个问题,我们探索了从给定文本中的逼真的图像及其相应的前景 /背景分割掩码。为了实现这一目标,我们与GAN一起实验了共进行分割的概念。具体而言,提出了一种名为“共裂”启发的GAN(COS-GAN)的新型GAN结构,该结构同时从不同的噪声矢量中同时生成两个或多个图像,并利用图像特征之间的空间关注机制来生成逼真的分段掩码,以生成生成的Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Im-Agens。这种架构的优点是两倍:1)生成的分割掩码可用于专注于前景和背景,以改善生成的图像的质量,2)分段蒙版可以用作其他任务的训练目标,例如访问本地化和分割。在CUB,Oxford-102和可可数据集上进行的广泛实验表明,Cos-Gan能够改善视觉质量,并为发电图像提供可靠的前景 /背景掩码。
图1:整体工作流程:在第一步中,我们使用带导的对接进行策划的激酶活性数据(Kinodata)在计算机中生成结构蛋白质 - 配体。然后对此增强数据集进行测试,以确保其对绑定亲和力预测任务的有用性。在第二步中,我们使用对接姿势与两个基线模型-DTI和GNN-比较了CGNN模型,而无需访问生成的3D信息。
