我们介绍了Cyberdemo,这是一种用于机器人模仿学习的新方法,该方法利用了模拟人类的策略来实现现实世界的任务。通过在模拟环境中纳入广泛的数据增强,CyberDemo在转移到现实世界中的传统现实世界中的表现优于传统的现实世界中的演示,从而处理了多样化的物理和视觉条件。无论其负担能力和在数据收集中的便利性如何,Cyberdemo Opper-pers-pers-pers-pers of-lip-term-term of基线方法在跨不同任务的成功率方面,并具有以前未见的对象的普遍性。例如,尽管只有人类的示范插入三瓣,但它仍可以旋转新型的四阀和五角谷。我们的研究证明了模拟人类示范对现实世界灵活操纵任务的重要潜力。更多详细信息可以在https://cyber-demo.github.io/
扩散模型代表文本到图像生成中的新范式。除了从文本提示中生成高质量的图像之外,诸如稳定扩散之类的模型已成功扩展到了共同生成的分段伪遮罩。但是,当前的敏感主要依赖于提取与用于图像合成的及时单词相关的关注。这种方法限制了从文本提示中未包含的单词代币中得出的分割掩码的产生。在这项工作中,我们介绍了开放式摄影注意力图(OVAM) - 用于文本到图像扩散模型的无训练方法,可为任何单词生成注意力图。此外,我们提出了一个基于OVAM的轻巧优化过程,用于查找具有单个注释的对象类的准确注意图。
脑肿瘤的特征是脑组织异常生长,因其对全球发病率和死亡率的影响而成为一项重大的医学挑战。脑肿瘤有多种表现形式,从良性到恶性,后者尤其具有侵袭性且易于转移 (1)。脑肿瘤的病因复杂,包括放射线暴露、遗传易感性和家族史等因素,因此需要早期发现和准确诊断 (2)。在脑肿瘤诊断领域,磁共振成像 (MRI) 因其更高的空间分辨率和软组织对比度而成为优于计算机断层扫描 (CT) 的检查方式。这使得 MRI 成为脑肿瘤病例术前评估、治疗管理和生存预测所必需的 (3)。然而,MRI 扫描中传统的手动分割方法虽然是黄金标准,但却存在固有的效率低下和主观差异性,因此有必要探索自动化技术 (4、5)。近年来,深度学习模型(例如 Ma 等人提出的模型)在自动脑肿瘤分割方面取得了重大成功。这些模型擅长捕捉局部和全局上下文特征,但通常会遇到梯度消失和过拟合的问题,尤其是在较深的网络层中。Kumar 等人(7)通过将 ResNet50 与全局平均池化相结合来解决这些问题,以增强各种肿瘤类型的肿瘤分类。在此基础上,我们的研究引入了一种先进的连续学习框架,用于从 MRI 图像中分割脑肿瘤,如图 1 所示。我们的方法与现有技术不同,它集成了多尺度空间蒸馏和伪标记策略。这种方法不仅克服了以前模型中出现的梯度消失和过拟合的局限性,而且还解决了灾难性遗忘问题——这是连续学习模型中常见的挑战。与依赖于保留数据的传统方法不同,我们的研究引入了一种先进的连续学习框架,用于从 MRI 图像中分割脑肿瘤,如图 1 所示。我们的方法与现有技术不同,它集成了多尺度空间蒸馏和伪标记策略。这种方法不仅克服了以前模型中出现的梯度消失和过拟合的局限性,而且还解决了灾难性遗忘问题——这是连续学习模型中常见的挑战。与依赖于保留数据的传统方法不同,我们的研究引入了一种先进的连续学习框架,用于从 MRI 图像中分割脑肿瘤,如图 1 所示。
抽象的脑肿瘤分割是对医疗保健中诊断和治疗计划很重要的重要步骤。大脑MRI图像是根据建议的方法在收集数据并准备进一步分析之前先进行预处理的。建议的研究介绍了一种新策略,该策略使用以生物启发的粒子群优化(PSO)算法来分割脑肿瘤图像。为了提高准确性和可靠性,可以调整分割模型的参数。标准措施等标准度量,例如精度,精度,灵敏度,jaccard索引,骰子系数,特异性,用于绩效评估,以衡量建议的基于PSO的分割方法的有效性。建议方法的总体准确性为98.5%。随后的绩效分析分别为骰子得分系数,Jaccard指数,精度,灵敏度和特异性的91.95%,87.01%,92.36%,90%和99.7%的结果提供了更好的结果。因此,此方法对于放射科医生来说可能是有用的工具,可以支持它们诊断大脑中的肿瘤。关键字 - 脑肿瘤,群智能,粒子群优化,磁共振图像。
本文通过利用大型预训练模型来探讨合成数据的潜力,尤其是在面对分布变化时。al-尽管生成模型的最新进展已经阐明了跨分布数据发生的几项先前的作品,但它们需要模型调整和复杂的设置。为了绕过这些缺点,我们介绍了主要的g a a a a a a a a embeddings(doge),这是一个跨分布的插件语义数据augpection框架,几乎没有射击设置。我们的方法以潜在形式提取源和所需数据分布之间的差异,然后引导生成过程,以补充无数多种合成样本的训练集。我们的评估是在几个射击范式下进行亚种群偏移和三个领域适应方案进行的,表明我们的多功能方法改善了各个任务的性能,需要进行动手干预或复杂的调整。Doge铺平了毫不费力地生成遵循测试分布的现实,可转让的合成数据集的道路,从而加强了下游任务模型的现实世界效率。
解释摄像机数据是自主行动系统(例如自动驾驶汽车)的关键。在现实世界环境中运行的视觉系统必须能够解释其周围环境,并需要能够处理新型情况。本文解决了开放世界的分段,即解释训练过程中未见对象的图像数据的变体。我们提出了一种新的方法,该方法可以执行确定性封闭世界的语义分割,同时可以识别新类别,而无需任何适当的培训数据。我们的方法1另外,为图像中的每个新发现的类与已知类别提供了相似性度量,这在下游任务(例如计划或映射)中可能是有用的信息。通过广泛的实验,我们表明我们的模型在已知的训练数据以及异常分割的类别上实现了最新的结果,并且可以区分不同的未知类别。
我们提出了一个场景表示形式,我们称之为触觉的辐射场(TARF),它将视觉和触摸带入共享的3D空间。此表示形式可用于估计场景中给定3D位置的视觉和触觉信号。我们从一系列照片和稀疏采样触摸探针中捕获了场景的tarf。我们的方法利用了两个见解:(i)基于常见的触摸传感器建立在普通摄像机上,因此可以使用多视图几何形状中的方法对图像进行注册,并且(ii)在视觉和结构上相似的场景区域具有相同的触觉效果。我们使用这些见解将触摸信号注册到捕获的视觉场景中,并训练有条件的扩散模型,该模型带有从神经辐射场呈现的RGB-D图像,生成其相应的触觉信号。为了评估我们的方法,我们收集了一个TARF的数据集。此数据集比预先持有的现实世界数据集包含更多的触摸样本,并且为每个捕获的触摸信号提供了空间对齐的视觉信号。我们揭示了跨模式生成模型的准确性以及在下游任务上捕获的视觉效果数据的实用性。项目页面:https:// dou- yiming.github.io/tarf。
本文介绍了一种新颖的方法,可以使用极端点,即每个对象的最上方,最左侧,最左侧,bottommost和最右点进行学习。这些要点在现代边界框注释过程中很容易获得,同时为预分段提供了强大的线索,因此可以使用盒子监督的方法以相同的注释成本来提高性能。我们的工作将极端点视为真实实例掩盖的一部分,并传播它们以识别潜在的前面和背景点,它们全部用于训练伪标签生成器。然后,发电机给出的伪标签又用于监督我们的最终模型。在三个公共基准测试中,我们的方法大大优于现有的盒子监督方法,以完全监督的对应物进一步缩小了差距。尤其是,当目标对象分为多个部分时,我们的模型会生成高质量的掩码,而以前的盒子监督方法通常会失败。
数据重播是图像的成功增量学习技术。它通过保留原始或合成的先前数据的储存库来防止灾难性的遗忘,以确保模型在适应新颖概念的同时保留过去的知识。但是,它在视频域中的应用是基本的,因为它只是存储了框架以进行动作识别。本文首次探讨了视频数据重播技术的递增动作分割,重点是动作时间段。我们提出了一个时间连贯的动作(TCA)模型,该模型代表使用生成模型而不是存储单个帧的动作。捕获时间连贯性的调节变量的集成使我们的模型了解随着时间的流逝的作用进化。因此,TCA为重播产生的动作段是多种多样的,并且在时间上是连贯的。在早餐数据集上的10任任务增量设置中,与基准相比,我们的AP可以显着提高准确性高达22%。
随着大型语言模型(LLM)的成功,将视觉模型融入了LLM,以建立视觉语言基础模型最近引起了人们的兴趣。但是,现有的基于LLM的大型多模式模型(例如,视频播放,视频聊天)只能摄入有限数量的框架以进行简短的视频理解。在这项研究中,我们主要专注于设计一个有效有效的模型,以进行长期视频理解。我们建议以在线方式处理视频并将过去的视频信息存储在存储库中,而不是像大多数现有作品一样尝试同时进行更多框架。这使我们的模型可以参考历史视频内容以进行长期分析,而不会超过LLM的上下文长度约束或GPU内存限制。我们的内存库可以以现成的方式被缝制到当前的多模式LLMS中。我们在各种视频理解任务上进行了广泛的实验,例如长期介绍,视频问题答案和视频字幕,我们的模型可以在多个数据集中实现最新的性能。