编解码器包括两个组件,一个编码器和一个解码器,因此名称。视频编解码器的示例是H.264,H.265,VP9等…编解码器使用各种技术来压缩数据。压缩可以是无损的,在这种情况下,解码数据将产生与编码或有损的数据完全相同的数据,在这种情况下,解码数据的数据将丢失一些编码的数据。压缩越高,丢失的数据越多。通常,使用无损编解码器的使用会导致文件比有损失的文件更大。某些编解码器在制作等效质量的视频所需的数据量中比其他编解码器更有效。H.265以同等质量生产的文件小于H.264;但是,执行此操作所需的更复杂的方法通常意味着它们需要更长的时间来编码和解码视频。
大型视觉模型的发展,无明显的剪辑,已经催化了对有效适应技术的研究,特别着眼于软及时调整。联合使用,使用单个图像的多个增强视图来增强零击的概括,它正在成为互动的重要领域。这主要指导研究工作,以进行测试时间及时调整。相比之下,我们为t estime a u Megentation(MTA)引入了强大的m eanshift,该方法超过了基于及时的方法而无需进行此类训练程序。这将MTA定位为独立和基于API的应用程序的理想解决方案。此外,我们的方法不依赖于某些先前测试时间augting技术中使用的临时规则(例如,置信度阈值)来过滤增强视图。相反,MTA将每种视图的质量评估变量直接纳入其优化过程,称为inllielness评分。该分数通过寻求过程进行了共同优化,从而导致有效的训练和无参数方法。我们在15个数据集上广泛地标记了我们的方法,并演示了MTA的优势和计算效率。在零摄像机模型和最先进的几种方法的顶部轻松部署为插件模块,MTA显示了系统的和一致的改进。
最新的表示学习研究表明,层次数据将自己带入双曲线空间中的低维和高度信息的表示。但是,即使双曲线嵌入在图像识别方面也收集了,它们的优化也容易出现数值障碍。此外,与传统的Eu-Clidean特征相比,尚不清楚哪种应用将受益于双曲线的隐性偏见最大。在本文中,我们专注于原型双曲神经网络。尤其是,双曲线嵌入的趋势会在高维度收敛到庞加尔e球的边界,并且对这对几乎没有的分类具有影响。我们表明,在常见的双曲半径上获得双曲线嵌入的最佳射击效果。与先前的基准结果相反,我们证明了配备有欧几里德指标的固定radius编码器可以实现更好的性能,而与嵌入式维度无关。
我们介绍了一声开放的负担能力学习(OOAL),其中一个模型只有一个基本对象类别的一个示例训练,但有望识别新颖的观点和负担能力。虽然视觉语言模型在识别新颖的物体和场景方面表现出色,但它们通常会努力理解诸如亲戚之类的粒度水平。为了解决这个问题,我们对现有基础模型进行了全面分析,以探索他们对负担的理解并评估潜在的数据限制负担能力学习。然后,我们提出了一个视觉语言框架,并具有简单有效的范围,以增强视觉特征和负担能力文本嵌入之间的对齐方式。对两个负担能力分割基准的实验表明,所提出的方法优于最先进的模型,这些模型少于1%的完整培训数据,并且在看不见的物体和负担能力上表现出合理的概括能力。项目页面:https://reagan1311.github.io/ooal。
在这项工作中,我们证明,由于现有评估协议和数据集中的不足,因此有必要重新审视并全面研究Mul-timodal零射击学习(MZSL)问题问题。具体来说,我们解决了MZSL方法面临的两个主要挑战。 (1)既定基线的情况通常是无与伦比的,而且有时甚至是有缺陷的,因为现有的评估数据集通常与培训数据集有一些重叠,因此违反了零照片范式; (2)大多数现有的方法都偏向可见的类,这在对可见和看不见的类别进行评估时会大大降低性能。为了应对这些挑战,我们首先引入了一个新的多模式数据集,用于零照片评估,称为MZSL-50,其中有4462个视频来自50个广泛多元化的类别,并且与培训数据没有重叠。此外,我们提出了一种新型的多模式零射击变压器(MZST)体系结构,该体系结构利用了吸引瓶颈进行多模式融合。我们的模型可以直接预测语义表示,并且在将偏见降低到可见的类别方面表现出色。我们进行了广泛的消融研究,并在三个基准数据集和我们的新型MZSL-50数据集上实现最先进的结果。具体来说,我们提高了传统的MZSL绩效2。1%,9。81%和8。 vgg-sound,UCF-101和ActivityNet的68%。 最后,我们希望引入MZSL-50数据集将促进对社区中多模式零射击的深入研究。 181%和8。vgg-sound,UCF-101和ActivityNet的68%。最后,我们希望引入MZSL-50数据集将促进对社区中多模式零射击的深入研究。1
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
转导的推论已通过几片图像分类进行了广泛研究,但在最近的,快速增长的文献中,有关适应视觉模型(如剪辑)的文献被完全忽略了。本文介绍了转换零射击和少量剪辑的分类,其中在其中共同进行推理,在一批无标记的查询样品中共同执行,而不是独立处理每个实例。我们最初构建了信息性的文本概率特征,从而在单元单元集中导致分类问题。受期望最大化(EM)的启发,我们基于优化的分类目标使用Dirichlet定律对每个类别的数据概率分布进行模型。然后使用一种新颖的块最小化最小化算法来解决最小化问题,该算法同时估计分布参数和类分配。在11个数据集上进行的广泛的Numerical实验强调了我们批处理推理方法的效果和效率。在带有75个样本的测试批次的零摄像任务上,我们的APARCH产量比Clip的零弹性性能提高了20%的ImageNet准确性。此外,我们在几次设置中胜过最先进的方法。代码可在以下网址提供:https://github.com/ segolenemartin/trandductive-clip。
生成的零拍学习(ZSL)学习了一个生成器来合成看不见类的视觉样本,这是推进ZSL的有效方法。然而,现有的发电方法依赖于高斯噪声和预定义的语义原型的条件,这限制了仅在特定的看到类中优化的发电机,而不是对每个视觉实例进行特征,从而导致概括不良(例如,过度适用于可见的类)。为了解决这个问题,我们提出了一种新颖的视觉启动动态语义原型方法(称为VADS),以增强发电机来学习准确的语义 - 视觉映射,以充分利用视觉效果的知识为语义条件。详细说明,VADS由两个模块组成:(1)视觉吸引域知识学习模块(VDKL)了解视觉特征的偏见和全局先验(称为域的视觉知识),这些偏见取代了纯净的高斯噪声,以提供更丰富的先验噪声信息; (2)以视觉为导向的语义更新模块(VOSU)根据样本的视觉表示更新语义原型。最终,我们将它们的输出作为动态语义原型串联,作为发电机的条件。广泛的实验表明,我们的VAD在三个突出的数据集上实现了上升的CZSL和GZSL prounperces,并且在Sun,Cub和Awa2上分别胜过其他最先进的方法,其平均分别增加了6.4%,5.9%,5.9%和4.2%。
摘要:通用的很少的语义分割(GFSS)目标在学习一组基本类别的分割后,使用一些带注释的示例将新颖对象类别进行分割。典型的GFSS培训涉及两个阶段 - 基类学习,然后是新颖的课程和学习。尽管现有方法表现出了希望,但在新颖的班级数量显着时,它们通常会挣扎。大多数当前方法都冻结了编码器主链以保持基类精度;但是,冻结编码器骨架可以严重阻碍新班级中新型信息的同化。为了应对这一挑战,我们建议在GFSS中使用增量学习策略来学习编码器骨干和新型类原型。受到低级适应技术(LORA)最近成功的启发,我们通过新颖的重量分解方法向GFSS编码器主链引入了Increthorth学习。我们新提出的等级自适应权重合并策略对在编码器主链各个层中吸收的新颖性不同。在我们的工作中,我们还将增量学习策略介绍给新型类别的类原型学习。我们在Pascal-5 I和Coco-20 I数据库上进行了广泛的实验,展示了增量学习的有效性,尤其是当新颖的类人数超过基础类别时。使用我们提出的基于权重分解的增量学习(WFIL)方法,以概括性的语义分段建立了一组新的最先进的精度值。