解释摄像机数据是自主行动系统(例如自动驾驶汽车)的关键。在现实世界环境中运行的视觉系统必须能够解释其周围环境,并需要能够处理新型情况。本文解决了开放世界的分段,即解释训练过程中未见对象的图像数据的变体。我们提出了一种新的方法,该方法可以执行确定性封闭世界的语义分割,同时可以识别新类别,而无需任何适当的培训数据。我们的方法1另外,为图像中的每个新发现的类与已知类别提供了相似性度量,这在下游任务(例如计划或映射)中可能是有用的信息。通过广泛的实验,我们表明我们的模型在已知的训练数据以及异常分割的类别上实现了最新的结果,并且可以区分不同的未知类别。
生物大脑的学习速度比标准深度神经网络强化学习算法快得多。其中一个原因是深度神经网络需要学习适合手头任务的表示,而生物系统已经拥有合适的表示。在这里,我们通过在神经网络上施加基于生物学中观察到的表示(例如网格细胞)来绕过这个问题。本研究探讨了使用受生物启发的网格细胞表示与独热表示对基于时间差异的 Actor-Critic 网络学习解决简单的 2D 网格世界强化学习任务的速度的影响。结果表明,使用网格细胞确实可以促进更快的学习。此外,这里实现的网格细胞具有准确表示无界连续空间的潜力。因此,它们在这个离散任务上的出色表现是探索它们在连续空间中强化学习的效用的第一步。关键词:强化学习;网格细胞;空间语义指针;
摘要。在非结构化环境中执行语言条件的机器人操纵任务对于一般的智能机器人高度要求。常规的机器人操纵方法通常会学习对动作预测观察的单一表示,这忽略了人类目标组成的场景级时空动力学。在本文中,我们提出了一种动态的高斯分裂方法,名为Manigaussian多任务机器人操纵,该方法通过未来场景重建进行了场景动态。具体而言,我们首先要介绍动态的高斯脱落框架,该框架渗透了高斯嵌入空间中的半义传播,其中利用语义表示来预测最佳的机器人动作。然后,我们构建了一个高斯世界模型,以参数化我们动态的高斯脱落框架中的分布,该框架通过未来的场景重建在交互式环境中提供了信息性的范围。我们通过166个变体评估了10个RLBench任务的Manigussian,结果表明我们的框架可以比最先进的方法胜过13。平均成功率1%。
摘要。在过去的十二年中,大规模的生物医学秘密索引和提问挑战挑战(BioASQ)一直在推动方法和工具的持续发展,以促进生物医学领域的不断增长的科学资源。在这个方向上,每年,BioASQ都会组织共享的任务,代表生物医学专家的真实信息需求并提供各自的基准数据集。以这种方式,它提供了一个独特的普通测试床,世界各地的研究团队可以测试并比较获得生物医学知识的新方法。第十三版BioASQ将在CLEF2025的背景下作为评估实验室举行,提供六个任务:(i)关于生物医学语义问题答案的任务B。(ii)关于回答开发生物医学主题的问题的任务协同作用。(iii)多语言临床摘要的任务多语。(iv)任务Bionne-b insed inted nested nation in link in俄语和英语。(v)心脏病学临床编码的任务elcardiocc。(vi)肠道相互作用信息上的任务gutbrainie。作为bioasq奖励胜过
我们提出了一个半监督域自适应框架,用于从不同的图像模态中分割脑血管。尽管可用的脑血管成像技术范围很广,但现有的最先进的方法只关注单一模态。这可能导致显著的分布变化,从而对跨模态的泛化产生负面影响。通过依赖带注释的血管造影和有限数量带注释的静脉造影,我们的框架完成了图像到图像的转换和语义分割,利用解开的、语义丰富的潜在空间来表示异构数据并执行从源域到目标域的图像级自适应。此外,我们降低了基于循环的架构的典型复杂性并最大限度地减少了对抗训练的使用,这使我们能够构建一个具有稳定训练的高效、直观的模型。我们在磁共振血管造影和静脉造影上评估了我们的方法。在源域中实现最佳性能的同时,我们的方法在目标域中的 Dice 得分系数仅低 8.9%,凸显了其在不同模态下进行稳健脑血管图像分割的巨大潜力。
学习自然界中所有动物的3D模型都需要大规模扩展现有的解决方案。考虑到这个最终目标,我们开发了3D-Fauna,这种方法可以学习共同100多种动物物种可变形的3D动物模型。建模动物的一个关键瓶颈是培训数据的有限可用性,我们通过从2D Internet图像中学习模型来克服。我们表明,特定于类别的先验方法未能推广到具有有限的训练图像的稀有物种。我们通过介绍了皮肤模型(SBSM)的语义库来应对这一挑战,该模型(SBSM)通过将几何感应式先验与由现出架子的自我使用的特征提取器相结合,从而自动发现一小部分基本动物形状。为了培训这种模型,我们还贡献了一个新的大型种类的大规模数据集。在推理时,给定任何四足动物的单个图像,我们的模型在几秒钟内以馈送方式重建了铰接的3D网格。
摘要。类别 - 不足的姿势估计(CAPE)旨在根据该类别的几个提供的示例来检测图像中任意看不见类别的关键。这是一项具有挑战性的任务,因为看不见的类别的有限数据使模型很难有效地进行大规模化。为了应对这一挑战,以前的方法通常会在一组带有广泛宣传的预定义的基本类别上训练模型。在这项工作中,我们建议利用货架文本对图像扩散模型的丰富知识,以有效地解决斗篷,而无需对精心准备的基础类别进行培训。为此,我们提出了一个提示姿势匹配(PPM)框架,该框架通过文本到图像扩散模型学习了伪提示,该伪提示与所提供的几个示例中的关键点相对应。这些学到的伪提示捕获了关键点的杂志信息,然后可以将其用于从图像中找到相同类型的关键点。我们还设计了一个类别共享的及时培训(CPT)方案,以进一步提高我们的PPM的表现。广泛的实验证明了我们方法的功效。
摘要。传统的单对象跟踪任务正在经历新的转型浪潮,尤其是随着语义缺乏的出现,这导致了视觉跟踪任务的兴起。但是,将Vi-Sual Tracker与自然语言描述相结合的先前方法倾向于依靠文本描述的全局表示,而较少考虑文本描述和Vi-Sual外观之间的精细连接。本文提议利用双向交叉注意模块来捕获语言和视觉特征之间的连接,这些连接进一步投影为密集的语义反映以保持对齐方式。为了保持搜索区域与耦合的自然语言之间的语义同意,并使融合功能保持一致,本文提出了一种新颖的密集性对比度学习损失,以弥合文本和视觉方式之间的语义差距,并以密集的形式对齐。所提出的框架在跟踪包含自然语言描述的数据集(例如TNL2K和OTB99-LANG)方面实现了有希望的结果。我们的方法提供了一种新颖的解决方案,用于代表和对齐单个对象跟踪任务的跨模式信息,并可能激发该领域的进一步研究。
摘要。协作感知通过共享感知信息有效地扩展了代理的感知范围,并且它解决了单车感知中的遮挡问题。大多数现有作品都是基于感知模型同质性的假设。但是,在实际的协作场景中,代理使用不同的感知模型体系结构,这会导致合作者共享的中间功能的规模,渠道数量和语义空间的差异,从而为协作带来了挑战。我们介绍了HeteCooper,这是一个与异质感知模型的场景的合作感知框架。为了建模异质特征之间的相关性,我们构建了特征协作图,该图形完全保留了特征的语义信息和空间信息。此外,基于图形变压器的消息传递机制旨在在功能协作图中传输功能消息。首先,节点通道的数量和语义空间由Sepantic Mapper统一。然后,特征信息是由Edge Weighted引导的注意力集合而来的,最后实现了异质特征的融合。测试结果表明,我们的方法在模型均匀性和异质性方案中都能达到卓越的性能,并且对特征大小的变化也具有良好的可扩展性。
双曲线空间已成为一种有效的歧管,因为它们有效地表示层次数据结构的能力,即使对于低维嵌入也很少,它们也几乎没有变形。在选定的双曲线模型(例如庞加莱球)中,分类通常是通过利用符号距离函数到平面(陀螺仪)(陀螺仪)的双曲线函数或通过测量与虚拟固定原型的比对来进行的。我们在深度学习的环境中提出,以利用决策边界的不同表征:霍斯斯,它们是Busemann功能的级别。它们在几何上等效于在类似于原型的虚拟点上与双曲线空间边界相切。因此,我们定义了一个可以适应任何神经网络主链的新霍斯磷层。在以前的作品中,原型通常是均匀分布的,而无需对手头任务使用潜在可用的标签层次结构。我们还提出了一种基于Gromov-Wasserstein距离定位这些原型的层次知情方法。我们发现,原型的良好初始化和优化的组合改善了在层次数据集上的图像分类以及在图像和点云数据集中进行的两个序列分割任务中的基线性能。源代码将在接受后发布。