Generali

1900年1月1日机构名称:

通过实例模式编写器实现可泛化的隐式神经表征

尽管隐式神经表征 (INR) 近期取得了进展，但对于基于坐标的 INR 多层感知器 (MLP) 来说，学习跨数据实例的通用表征并将其推广至未见实例仍然具有挑战性。在这项工作中，我们为可推广的 INR 引入了一个简单而有效的框架，该框架使基于坐标的 MLP 能够通过仅调节早期 MLP 层中的一小组权重作为实例模式组合器来表示复杂数据实例；其余 MLP 权重学习跨实例通用表示的模式组合规则。我们的可推广 INR 框架与现有的元学习和超网络完全兼容，可用于学习预测未见实例的调节权重。大量实验表明，我们的方法在音频、图像和 3D 对象等广泛领域都实现了高性能，而消融研究验证了我们的权重调节。

查看详细

File

1900年1月1日机构名称:

视力的测试时间零射线概括...

大型视觉模型的发展，无明显的剪辑，已经催化了对有效适应技术的研究，特别着眼于软及时调整。联合使用，使用单个图像的多个增强视图来增强零击的概括，它正在成为互动的重要领域。这主要指导研究工作，以进行测试时间及时调整。相比之下，我们为t estime a u Megentation（MTA）引入了强大的m eanshift，该方法超过了基于及时的方法而无需进行此类训练程序。这将MTA定位为独立和基于API的应用程序的理想解决方案。此外，我们的方法不依赖于某些先前测试时间augting技术中使用的临时规则（例如，置信度阈值）来过滤增强视图。相反，MTA将每种视图的质量评估变量直接纳入其优化过程，称为inllielness评分。该分数通过寻求过程进行了共同优化，从而导致有效的训练和无参数方法。我们在15个数据集上广泛地标记了我们的方法，并演示了MTA的优势和计算效率。在零摄像机模型和最先进的几种方法的顶部轻松部署为插件模块，MTA显示了系统的和一致的改进。

查看详细

File

1900年1月1日机构名称:

视觉任务的通才建模界面

我们提出了指示插道，这是一个将计算机视觉任务与Human指令保持一致的统一且通用的框架。与现有的方法相比，将先验知识整合并预先定义了每个视觉任务的输出空间（例如，构想和坐标），我们将各种视觉任务施加到人类直觉的图像操纵程序中，其输出空间是一个灵活的交互式像素空间。具体而言，该模型是建立在扩散过程的基础上的，并经过培训可以根据用户说明进行预测像素，例如将男人的左肩围绕红色或左右涂上蓝色面具。指示示例可以处理各种视觉任务，包括未识别任务（例如分割和关键点）和生成任务（例如编辑和增强）和在新颖数据集中胜过先前的方法。这代表了朝着视觉任务的通才建模界面迈出的坚实一步，在计算机视觉领域中推进了人工通用的intel。

查看详细

File

1900年1月1日机构名称:

调整视觉语言模型以实现医学图像中的通用异常检测

大规模视觉语言预训练模型的最新进展已在自然图像领域中的零样本/少样本异常检测方面取得了重大进展。然而，自然图像和医学图像之间巨大的领域差异限制了这些方法在医学异常检测中的有效性。本文介绍了一种新颖的轻量级多级自适应和比较框架，以重新利用 CLIP 模型进行医学异常检测。我们的方法将多个残差适配器集成到预训练的视觉编码器中，从而实现不同级别视觉特征的逐步增强。这种多级自适应由多级、逐像素的视觉语言特征对齐损失函数引导，将模型的重点从自然图像中的对象语义重新校准到医学图像中的异常识别。调整后的特征在各种医学数据类型中表现出更好的泛化能力，即使在模型在训练期间遇到看不见的医学模态和解剖区域的零样本场景中也是如此。我们在医学异常检测基准上进行的实验表明，我们的方法明显优于当前最先进的模型，在零样本和少样本设置下，异常分类的平均 AUC 改进分别为 6.24% 和 7.33%，异常分割的平均 AUC 改进分别为 2.03% 和 2.37%。源代码可从以下网址获取：https://github.com/MediaBrain-SJTU/MVFA-AD

查看详细

File

1900年1月1日机构名称:

自主驾驶的广义预测模型

环境，建立内部世界模型表示，做出决策并采取措施[9，50]。，尽管数十年来在学术界和工业上做出了巨大的努力，但他们的部署仍限于某些杂物或场景，并且不能在世界上无缝地应用。一个关键原因是在结构化自主驾驶系统中学习模型的概括能力有限。通常，感知模型会面临概括到不同环境的挑战，随着地理位置，传感器配置，天气条件，开放式对象等的变化。;预测和计划模型无法推广到具有罕见的sce narios和不同驾驶意图的非确定性期货[2，16，54]。是由人类学习如何感知和刺激世界的动机[27，28，49]，我们主张采用驾驶视频作为通用界面，将其推广到具有动态期货的各种环境。基于此，首选驱动视频预测模型以完全捕获有关驾驶场景的世界知识（图1）。通过预测未来，视频预测因子本质上了解了自主驾驶的两个重要方面：世界如何运作以及如何在野外安全地操纵。最近，社区已开始采用视频作为代表各种机器人任务的观察行为和行动的接口[11]。对于诸如经典视频预测和机器人技术等领域，视频背景大多是静态的，机器人的运动很慢，并且视频的分解很低。相比之下，对于驾驶场景 - iOS，它与室外环境高度斗争，代理人涵盖了更大的动作，以及涵盖众多视图的感觉分辨率。这些区别导致了自主驾驶应用的重大挑战。幸运的是，在驾驶领域中开发视频预测模型[4、15、19、23、23、25、33、38、45、47]。尽管在预测质量方面取得了令人鼓舞的进展，但这些尝试并未像经典的机器人任务（例如，操作）那样实现概括能力，仅限于有限的场景，例如流量密度低[4]的高速公路[4]和小型数据集[15，23，33，33，33，45，45，47]，或者在环境方面进行不同的条件，以使38个条件（33，45，47）的差异（33，45，47），以使3个条件（33，45，47）的差异（33，45，47），以使3个条件（33，45，47）的差异[3]（33，45，47），以下情况下的情况[3]（33，33，45，47），这是3次差异。如何揭示视频预测模型的驾驶潜力仍然很少探索。以上面的讨论为动机，我们旨在构建一个自动驾驶的视频预测模型，能够概括为新的条件和环境。为此，我们必须回答以下问题：（1）可以以可行且可扩展的方式获得哪些数据？（2）我们如何制定一个预测模型来捕获动态场景的复杂演化？（3）我们如何将（基础）模型应用于下游任务？

查看详细

File

1900年1月1日机构名称:

FedDG：通过连续频率空间中的情节学习对医学图像进行分割的联合域概括

联合学习允许分布式的医疗机构可以协作学习具有隐私保护的共享预测模型。在临床部署时，接受联邦学习的模型仍会在联邦外面完全看不见的霍斯群岛上使用时仍会遭受性能下降。在本文中，我们指出并解决了联合域的生成（FedDG）的新型问题设置，该设置旨在从多个分布式源域中学习联合模型，以便它可以直接概括为看不见的目标域。我们提出了一种新颖的方法，在持续频率空间（ELCF）中称为情节学习，通过启动每个客户端在数据分散率的挑战性约束下利用多源数据分布来利用多源数据分布。我们的方法通过有效的连续频率空间插值机制以隐私保护方式传输客户之间的分布信息。通过转移的多源分布，我们进一步仔细设计了面向边界的情节学习范式，以将本地学习暴露于域分布变化，尤其是在医学图像分割场景中尤其满足模型概括的挑战。在两个医学图像分割任务上，我们的方法的有效性优于最先进的表现和深入消融实验。可以在https://github.com/liuquande/feddg-elcfs上使用代码。

查看详细

File

1900年1月1日机构名称:

正规化参数不确定性，用于改善加强学习的概括

为了在现实世界中部署强化学习（RL）代理，它们必须能够推广到看不见的环境。但是，RL在分布外的概括方面挣扎，通常是由于过度拟合培训环境的细节。尽管可以应用监督学习的正则化技术来避免过度插入，但超级学习和RL之间的差异限制了其应用。为了解决这个问题，我们提出了RL的信噪比调节的参数不确定性网络（SNR PUN）。我们将SNR作为正规化网络的参数定向的新量度，并提供了正式分析，解释了SNR正则为什么对RL效果很好。我们证明了我们提出的方法在几个模拟环境中概括的有效性；在一个物理系统中，显示了使用SNR PUN将RL应用于现实世界应用程序的可能性。

查看详细

File

1900年1月1日机构名称:

学习空间和时间中的自相似性作为视频动作识别的广义运动

时空卷积通常无法学习视频中的运动动态，因此需要一种有效的运动表示来理解自然界中的视频。在本文中，我们提出了一种基于时空自相似性（STSS）的丰富而鲁棒的运动表示。给定一系列帧，STSS 将每个局部区域表示为与空间和时间中邻居的相似性。通过将外观特征转换为关系值，它使学习者能够更好地识别空间和时间中的结构模式。我们利用整个 STSS，让我们的模型学习从中提取有效的运动表示。我们所提出的神经块称为 SELFY，可以轻松插入神经架构中并进行端到端训练，无需额外监督。通过在空间和时间上具有足够的邻域体积，它可以有效捕捉视频中的长期交互和快速运动，从而实现鲁棒的动作识别。我们的实验分析表明，该方法优于以前的运动建模方法，并且与直接卷积的时空特征互补。在标准动作识别基准 Something-Something-V1 & V2、Diving-48 和 FineGym 上，该方法取得了最佳效果。

查看详细

File

1900年1月1日机构名称:

具有广义的全矢量谱元素方法...

查看详细

File

1900年1月1日机构名称:

通过风格增强和双重规范化实现通用的跨模态医学图像分割

对于医学图像分割，想象一下如果一个模型仅使用源域中的 MRI 图像进行训练，那么它在目标域中直接分割 CT 图像的性能如何？这种设置，即具有临床潜力的通用跨模态分割，比其他相关设置（例如域自适应）更具挑战性。为了实现这一目标，我们在本文中提出了一种新颖的双重规范化模型，该模型在通用分割过程中利用增强的源相似和源不相似图像。具体而言，给定一个源域，旨在模拟看不见的目标域中可能的外观变化，我们首先利用非线性变换来增强源相似和源不相似图像。然后，为了充分利用这两种类型的增强，我们提出的基于双重规范化的模型采用共享主干但独立的批量规范化层进行单独规范化。随后，我们提出了一种基于风格的选择方案，在测试阶段自动选择合适的路径。在三个公开数据集（即 BraTS、跨模态心脏和腹部多器官数据集）上进行的大量实验表明，我们的方法优于其他最先进的领域泛化方法。代码可在 https://github.com/zzzqzhou/Dual-Normalization 获得。

查看详细

XiaoMi-AI文件搜索系统

Generali

通过实例模式编写器实现可泛化的隐式神经表征

视力的测试时间零射线概括...

视觉任务的通才建模界面

调整视觉语言模型以实现医学图像中的通用异常检测

自主驾驶的广义预测模型

FedDG：通过连续频率空间中的情节学习对医学图像进行分割的联合域概括

正规化参数不确定性，用于改善加强学习的概括

学习空间和时间中的自相似性作为视频动作识别的广义运动

具有广义的全矢量谱元素方法...

通过风格增强和双重规范化实现通用的跨模态医学图像分割

按机构统计排名前十媒体

按照发布年份统计数据

XiaoMi-AI