预测给定控制动作的未来结果的能力对于物理推理至关重要。然而,这种预测模型通常称为世界模型,已被证明具有挑战性的学习,通常是通过在线政策学习中为特定于任务的解决方案而开发的。我们认为,世界模型的真正潜力在于他们仅使用被动数据来推理和计划各种问题的能力。具体而言,我们要求世界模型具有以下三个属性:1)在离线,预采用的轨迹上进行训练,2)支持测试时间行为优化,3)促进任务无关紧要的推理。为了意识到这一点,我们提出了Dino World Model(Dino-WM),这是一种建模视觉动力学的新方法,没有重建视觉世界。Dino-WM利用了通过Dinov2预先训练的空间贴片特征,从而使其能够通过预测未来的补丁功能来从离线行为轨迹中学习。此设计允许Dino-WM通过动作序列优化实现邻国目标,从而通过将所需的目标贴片特征视为预测目标来促进任务不合时宜的行为计划。我们评估跨各个领域的Dino-WM,包括迷宫导航,桌面推动和粒子操纵。我们的实验表明,Dino-WM可以在测试时间生成零拍的行为解决方案,而无需依赖专家演示,奖励建模或预学的逆模型。值得注意的是,与先前的最新作品相比,Dinowm具有强大的概括能力,适应了多种任务家族,例如任意配置的迷宫,具有多种物体形状的推动操纵和多粒子场景。
现有的对象检测模型主要在大型标记的数据集上进行培训。但是,新型航空对象类的注释数据很昂贵,因为它耗时,可能需要专家知识。因此,希望研究航空效率上的标签有效对象检测方法。在这项工作中,我们提出了一种零拍方法,用于空中对象检测名为“视觉描述正则化”或“下降”。具体而言,我们确定了空中物体的弱语义 - 视觉相关性,并旨在通过先前描述其视觉外观来解决Challenge。否则将描述直接编码为具有差距概率的类嵌入空间,我们建议在描述中传达的先前的阶层间视觉模拟,以将描述传达到嵌入学习中。通过新签名的相似性感知的三重损失完成输注过程,该损失在表示空间上结合了结构的正则化。我们使用三个具有挑战性的空中对象进行数据集进行了广泛的实验,包括Dior,Xview和Dota。恢复表明,下降的表现明显优于具有复杂投影的最先进的ZSD方法,例如,discreg胜过discreg优于未看到类别的dior上的ZSD方法最佳报道的ZSD方法,而HM在HM中是8.1。我们通过将下降集成到生成ZSD方法以及改变检测体系结构中进一步显示了降落的概括性。代码将在https://github.com/zq-zang/descreg上进行重新租赁。
基因组基础模型具有精确医学,药物发现和理解复杂生物系统的变革潜力。然而,现有模型通常效率低下,受到次优的令牌化和建筑设计的约束,并偏向参考基因组,限制了它们在稀有生物圈中对低丰度,未培养的微生物的表示。为了应对这些挑战,我们开发了Genomeocean,这是一个40亿参数的基因组基础模型,该模型对超过600 GBP的高质量重叠群进行了训练,这些基础是从地球生态系统中各种栖息地收集的220 TB元基因组数据集的高质量重叠群。基因瘤的一项关键创新是直接对元基因组样品的大规模共组合进行培训,从而增强了稀有微生物物种的表示,并提高了以基因组为中心方法的概括性。我们实施了基因组序列产生的字节对编码(BPE)代币化策略,以及建筑优化,实现高达150倍的更快序列产生,同时保持高生物学保真度。Genomeocean在代表微生物物种和产生受进化原理约束的蛋白质编码基因方面表现出色。此外,其微调模型还展示了在天然基因组中发现新型生物合成基因簇(BGC)的能力,并执行生物化学上完全合理的完整BGC的零拍合成。Genomeocean为元基因组研究,自然产品发现和合成生物学设定了一个新的基准,为这些领域提供了强大的基础。
我们介绍了Biotrove,这是旨在推进生物多样性应用程序的最大公共访问数据集。Biotrove从Intaturist平台策划,并审查仅包括研究级数据,包含16190万张图像,提供了三个主要王国的前所未有的规模和多样性:Animalia(“动物”),真菌(“ Fungi”),“ Fungi”)和parterae(“植物”),跨越了大约366.6k种。每个图像都用科学名称,分类层次结构和通用名称注释,可提供丰富的元数据,以支持各种物种和生态系统跨越准确的AI模型开发。我们通过释放一套使用4000万个字幕图像的子集(称为Biotrove-Train)训练的剪辑模型来证明Biotrove的价值。This subset focuses on seven categories within the dataset that are underrepresented in standard image recognition models, selected for their critical role in biodiversity and agriculture: Aves ("birds"), Arachnida ("spiders/ticks/mites"), Insecta ("insects"), Plantae ("plants"), Fungi ("fungi"), Mollusca ("snails"), and Reptilia (“蛇/蜥蜴”)。为了支持严格的评估,我们介绍了几个新的基准测试和报告模型的准确性,以跨生活阶段,稀有物种,混杂物种和多种分类学水平进行零拍学习。我们预计生物群将刺激AI模型的开发,这些模型支持用于害虫控制,作物监测,生物多样性评估和环境保护的数字工具。这些进步是确保粮食安全,保存生态系统并减轻气候变化影响的范围。Biotrove公开可用,易于访问,并准备立即使用。
对象导航(ObjectNav)要求代理在看不见的环境中导航以找到查询对象。许多以前的方法试图通过依靠经过跨越或强化学习来解决此任务,在该学习中,它们在具有近距离对象的有限家庭数据集上进行了培训。然而,尚未解决两个主要挑战:了解自由形式的自然语言指令,要求开放式观察,并以零拍的方式推广到新环境。旨在解决这两个挑战,在本文中,我们提出了OpenFM- NAV,这是一个基于零照射对象导航的基于odel m ODEL M ODEL的框架。我们首先释放了大型语言模型(LLMS)的推理能力,以从满足用户需求的自然语言指令中提取拟议的观察。然后,我们利用大型视觉语言模型(VLM)的普遍性来积极地从场景中发现和脱离候选对象,建立多功能语义得分图(VSSM)。然后,通过对VSSM进行常识推理,我们的方法可以对场景进行有效的语言引导探索和剥削,并最终达到目标。通过利用基础模型的推理和概括,我们的方法可以理解自由形式的人类指示并在不同环境中进行有效的开放式零射门导航。在HM3D ObjectNAV基准上进行的广泛实验表明,我们的方法超过了所有指标上的所有强基础,证明了我们方法的有效性。1此外,我们执行真实的机器人演示,以验证我们方法对现实环境的开放定点性和普遍性。
从内容节制到野生动植物保护,需要模型识别细微或主观的视觉概念的应用数量正在增长。传统上,开发用于此类概念的分类器需要在数小时,天甚至数月内衡量的大量手动努力来识别和注释培训所需的数据。即使最近提出的敏捷建模技术可以快速地进行图像分类器的快速启动,但仍需要用户花费30分钟或更多的单调,重复的数据标签,以训练一个罪恶的分类器。利用了Fiske的认知灾难理论,我们提出了一个新框架,通过用自然语言相互作用代替人类标签,从而减少了由自然语言相互作用,从而减少了通过一个数量级来定义的总体努力所需的总体努力:从将2,000张标记的图像定义为只有2,000张图像到只有100张图像到100次自然语言相互作用。我们的框架利用了大型语言模型和视觉语言模型的基础模型的最新进展,以通过对话和自动标记培训数据点来雕刻概念空间。最重要的是,我们的框架消除了对人群来源注释的需求。此外,我们的框架最终生产出在成本敏感的方案中可部署的轻量级分类模型。在15个主观概念和2个公共图像分类数据集中,我们训练的模型的表现优于传统敏捷建模以及最先进的零拍模型,例如Align,clip,cupl,Cupl和大型视觉问题回答诸如Pali-X之类的模型。
机器人手术中的抽象目的深度估计在3D重建,手术导航和增强现实访问中至关重要。尽管基础模型在许多视觉任务中表现出出色的性能,包括深度估计(例如Dinov2),但最近的作品观察到了其在医学和外科域特异性应用中的局限性。这项工作介绍了手术深度估计基础模型的低排名适应性(LORA)。方法我们设计了一种基于基础模型的深度估计方法,称为手术 - 迪诺,这是对内窥镜手术深度估计的Dinov2的低级适应。我们建立洛拉层并将其集成到恐龙中,以适应手术特异性领域知识,而不是传统的调整。在训练期间,我们冻结了Dino Image编码器,该编码器显示出出色的视觉表示能力,仅优化Lora层和深度解码器以整合手术场景的特征。结果,我们的模型在MICCAI挑战数据集上得到了广泛的验证,该数据集是从Da Vinci XI内窥镜手术中收集的。我们从经验上表明,手术迪诺的显着性在内窥镜深度估计任务中的表现优于所有最新模型。进行消融研究的分析表明,我们洛拉层和适应的显着作用的证据。结论手术迪诺(Div)揭示了基础模型成功适应手术领域以进行深度估计。结果有明确的证据表明,对计算机视觉数据集中预训练的权重的零拍预测或幼稚的调整不足以直接在手术域中使用基础模型。
基础模型在几个领域取得了巨大的成功,例如自然语言处理,计算机视觉和最近的生物学。DNA粉底模型尤其是作为基因组学有前途的方法而出现的。然而,到目前为止,尚无模型在广泛的基因组和调节元素上提供颗粒状的核苷酸水平预测,从而限制了其实际实用性。在本文中,我们基于以前在核苷酸变压器(NT)上的工作,以开发一个分割模型,即分割,该模型在单核苷酸分辨率下处理输入DNA序列的输入DNA序列,以预测14个基因组学元素的14种基因组学元素。通过利用NT的预训练权重,分段超过了几种消融模型的性能,包括具有单热编码的核苷酸序列和从SCRATCH训练的模型的卷积网络。分段可以处理多个序列的多个序列长度,以零拍概括,以达到50kbp的序列。我们在整个基因组的剪接位点检测中显示出改善的性能,并表现出强核苷酸水平的精度。因为它同时评估了所有基因元素,因此分段可以预测序列变体对剪接位点变化的影响,而且还可以预测转录本同工型中外显子和内含子重排的影响。最后,我们表明,对人类基因组学元素进行训练的分段模型可以推广到不同物种的元素,并且训练有素的多种属性分段模型可以实现对不见物物种的所有基质元素的更强的一般性。总而言之,分段表明DNA粉底模型可以在单核苷酸分辨率下处理基因组学中复杂的颗粒状任务。分段很容易扩展到其他基因组学元素和物种,因此代表了我们分析和解释DNA的新范式。我们使我们的jax的github存储库中可在pytorch的jax和huggingface空间上提供分段-30kb的人类和多物种模型。