我们介绍了Florence-2,这是一个新型视觉基础模型,具有统一的,及时的代表,用于量级计算机视觉和视觉语言任务。在转移学习方面表现出色时,他们努力通过简单的说明执行各种任务,这意味着处理各种空间层次结构和语义粒度的复杂性。Florence-2旨在将文本推出作为任务说明,并以文本形式产生理想的结果,无论是限制,对象检测,接地还是分割。这种多任务学习设置需要大规模的高质量注释数据。为此,我们使用自动化图像注释和改进的迭代策略,共同开发了1.26亿张图像的FLD-5B。我们采用了一个序列结构,以训练佛罗伦萨-2,以执行多功能和全面的视觉任务。对众多任务的广泛评估表明,佛罗伦萨-2是具有未曾预性零击和微调功能的强大愿景基础模型竞争者。
摘要 - 尽管垃圾箱是机器人操纵的关键基准任务,但社区主要集中于将刚性直线物体放置在容器中。我们通过呈现一只软机器人手,结合视力,基于运动的本体感受和软触觉传感器来识别,排序和包装未知物体的流。这种多模式传感方法使我们的软机器人操纵器能够估计物体的大小和刚度,从而使我们能够将“包装好容器”的不定定义的人类概念转化为可实现的指标。我们通过逼真的杂货包装场景证明了这种软机器人系统的有效性,其中任意形状,大小和刚度的物体向下移动传送带,必须智能地放置以避免粉碎精致的物体。将触觉和本体感受反馈与外部视力结合起来,与无传感器基线(少9倍)和仅视觉的基线相比,项目受损的填料操作显着降低(4。少5×)技术,成功地证明了软机器人系统中多种感应方式的整合如何解决复杂的操作应用。
空间注意力的机制优先考虑与其他位置相对于其他位置的感官信息。这些机制已通过多种方法进行了深入的研究,包括心理物理学,事件型大脑电位,功能成像和单细胞记录(例如,参见Parasuraman,1998年,有关所有这些方法的发现)。这项工作导致了许多可复制的发现和一些重要的区别。的秘密关注转移(例如Mangun,Hillyard和Luck,1993; Posner,1978)。刺激驱动的外源机制已与预期驱动的内源性机制区分开来(例如Hopfinger&Mangun,1998; Jonides,1981; Posner,1978)。通常通过使用空间非预测的外围提示来研究前者,后者通过中央提示或指示可能目标位置的指令进行研究。两种形式的提示都可以在提示的位置带来性能优势,但是外源和内源性机制被认为在几种方面有所不同,包括其效果的时间过程(例如,外源性效应通常更短暂地遵循
实现强大而实时的3D感知是自动驾驶汽车的基础。虽然大多数现有的3D感知方法优先考虑检测准确性,但十个忽略了关键方面,例如计算效率,板载芯片部署友好性,对传感器安装偏差的韧性以及对各种VE-HILE类型的适应性。为了应对这些挑战,我们提出了nvautonet:一种专业的鸟类视图(BEV)感知网络 - 针对自动化车辆的明确量身定制。nvautonet将同步的相机图像作为输入,并预测3D信号(例如障碍物,自由空间和停车位)。NVAUTONET架构(图像和Bev Back-bones)的核心依赖于有效的卷积网络,该网络使用Tensorrt优化了高性能。我们的图像到BEV转换采用简单的线性层和BEV查找表,从而确保了快速推理速度。Nvautonet在广泛的专有数据集中受过培训,在NVIDIA DRIVE ORIN SOC上以每秒53帧的速度运行,始终达到升高的感知精度。值得注意的是,Nvautonet表现出对不同汽车模型产生的偏差偏差的韧性。此外,Nvautonet在适应各种车辆类型方面表现出色,这是通过廉价模型的微调程序来促进的,可以加快兼容性调整。
1。水资源:通过保护和保护水资源来增强水安全。改善综合水资源管理,并通过法规和技术措施确保水质。促进气候硫化的水存储和分配基础设施,例如为井,雨水收集和社区池塘。2。生物多样性:制定和实施综合的生物多样性保护计划,以保护和保护高保护价值领域。通过基于生态系统的适应来修复降级的栖息地,并建立新的保护区以确保受威胁生态系统的生存。改善湿地的健康状况(即Ramsar遗址)充当闸门,牧场,牧场和沙漠和保护水生的多样性和栖息地条件。3。改善针对气候诱发灾难的反应:通过优先考虑灾难挽救基础设施来加强气候诱发的灾难管理能力,
视觉模型(VLM)的最新进步在弥合计算机视觉和自然语言处理之间的差距方面取得了重大飞跃。然而,传统的VLM通过对有限和嘈杂的图像文本对进行对比学习训练,通常缺乏空间和语言的理解,可以很好地推广到密集的视觉任务或更少的通用语言。我们的方法,坚实的基础剪辑(SF-CLIP),通过隐式建立对经过大量单峰数据训练的基础模型的可靠的视觉和语言理解来避免此问题。sf-clip将对比的图像文本预测与大型基础文本和视觉模型的掩盖知识蒸馏。这种方法可以指导我们的VLM开发强大的文本和图像表示。结果,SF-CLIP显示出异常的零射击分类精度,并增强了图像和文本检索能力,为在YFCC15M和CC12M上训练的VIT-B/16的新最新状态。此外,在语义分割任务中,密集的每个斑点监督增强了我们的零射击和线性探针的性能。我们模型的一个了不起的方面是它的多语言能力,尽管主要接受了英语数据的培训,但通过多种语言的强劲检索结果证明了这一点。我们通过选择性地应用掩盖的蒸馏和教师单词嵌入的继承来实现所有这些改进,而无需牺牲培训效率。
摘要 - 电脑摄影仪(EEG)已被广泛用于脑部计算机界面(BCI),这使瘫痪的人能够由于其便携性,高时间分辨率,较高的时间分辨率,易用性和低成本而直接与外部设备进行通信和控制。基于稳态的视觉诱发电位(SSVEP)基于BCI的BCI系统,该系统使用多种视觉刺激(例如计算机屏幕上的LED或盒子)在不同频率上流动的数十年来,由于其快速通信速率和高信号速率和高信号率而被广泛探索。在本文中,我们回顾了基于SSVEP的BCI的当前研究,重点介绍了能够持续,准确检测SSVEP的数据分析,从而可以进行高信息传输率。在本文中描述了主要的技术挑战,包括信号预处理,频谱分析,信号分解,特定规范相关性分析及其变化以及分类技术的空间过滤。还讨论了自发性大脑活动,精神疲劳,转移学习以及混合BCI的研究挑战和机遇。
视觉 - 语言变压器(VLT)最近显示出巨大的成功,但同时伴随着大量的计算成本,其中主要原因可以归因于大量的视觉和语言令牌。存在用于压缩VLTS的令牌修剪研究主要遵循基于单模式的方案,但忽略了对齐不同模态来指导令牌修剪过程的关键作用,从而导致重要的代币在另一个模态分支中错误地修剪一个模态。同时,现有的VLT修剪作品也缺乏基于不同输入样本动态压缩每一层的灵活性。为此,我们提出了一个名为M Ultodal的新颖框架,用于加速变化VLT的木质制成d ynamic t ynamic t oken p Runing(MADTP)。具体来说,我们首先引入了精心设计的多模式对齐指导(MAG)模块,该模块可以使相同语义概念的特征与不同的模式相结合,以确保修剪的代币对所有模式都不太重要。我们进一步设计了一种新型的dy-namic令牌修剪(DTP)模块,该模块可以根据不同的输入实例自适应地调节每个层中的令牌压缩比。对各种基准测试的广泛实验表明,MADTP可以显着确定多种模型的计算复杂性,同时保留竞争性能。值得注意的是,当将MADTP应用于NLVR2数据集中的BLIP模型时,可以将GFLOPS降低80%,而性能降低少于4%。该代码可在https://github.com/double125/madtp上找到。