当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
在有限的预算下,获得固定的分类任务集的高质量结果是众包中的一个关键问题。应探索引入人工智能模型来补充该过程。然而,现有的方法很少直接解决这个问题;现有的方法是在如何使用嘈杂的众包数据训练人工智能模型的背景下提出的。本文提出了一种更直接的方法来解决在有限的预算下引入人工智能来提高人类工作者在固定数量任务中的结果的问题;我们将人工智能模型视为同事,并汇总人类和人工智能工作者的结果。提出的“人机协同 EM”(HAEM)算法扩展了 Dawid-Skene 模型,将 AI 模型视为同事,并明确计算它们的混淆矩阵以得出更高质量的聚合结果。我们进行了大量的实验,并将 HAEM 与两种方法(MBEM 和 Dawid-Skene 模型)进行了比较。我们发现,在大多数情况下,基于 AI 的 HAEM 比 Dawid-Skene 模型表现出更好的性能,并且当 AI 模型性能不佳时,它表现出比 MBEM 更好的性能。
对机器任务的深视频压缩(DVC)的事先研究通常需要为每个特定任务培训一个独特的编解码器,从而规定每个任务的专用解码器。相比之下,传统视频编解码器采用了flex ible编码器控制器,从而通过模式预测等机制使Single编解码器适应了不同的任务。从中汲取灵感,我们引入了一个创新的编码器控制器,以用于机器的深度视频压缩。此控制器具有模式预测和一组图片(GOP)选择模块。我们的AP-ARACH在编码阶段集中控制控制,从而允许跨不同任务(例如检测和跟踪)进行适应性的编码器调整,同时与标准的预训练的DVC解码器保持合理性。示例证明我们的方法是在具有各种现有预训练的DVC的多个任务中适用的。此外,广泛的实验表明,对于不同的任务,我们的方法比以前的DVC比以前的DVC大约25%,只有一个预先训练的解码器。
肥料动物饲料农药,除草剂洗涤剂阻燃剂润滑剂添加剂电池电解质塑料添加剂催化剂……等等!
摘要 - 植物材料对行星科学,建筑和制造业中许多机器人任务的关键兴趣。但是,颗粒材料的动力学很复杂,并且通常在计算上非常昂贵。我们提出了一组方法和一个用于快速模拟图形处理单元(GPU)的颗粒材料的系统,并表明该模拟足够快,可以通过增强学习算法进行基础培训,目前需要许多动力学样本才能实现可接受的性能。我们的方法模型使用隐式时间播放方法进行多体刚性接触的颗粒材料动力学,以及算法技术,用于在粒子对和任意形成的刚体之间和任意形状的刚体之间的有效并行碰撞检测,以及用于最小化Warp Divergence的编程技术,以最大程度地构建单层构造(构建多项)。我们在针对机器人任务的几个环境上展示了我们的仿真系统,并将模拟器作为开源工具发布。
引用Lai,Adrian K M,Dick,Taylor J M,Biewener,Andrew A和Wakeling,JamesM。皇家学会界面杂志18,第1期。174(2021):20200765。
ab s tr a ct。 p a r c e ll a t i o n s e d i n r e s t i ng -s t a t e t e f m ri(r s -f m ri) f un c t i o n a l d i ff e r e n c e s an nd t h e d o w n s t r e am t a s k。I n t h i s p a p e r , w e i n t r o du c e R e f i n e N e t , a B a y e s i a n - i n s p i r e d d ee p n e t w o r k a r c h i t e c t u r e t h a t a d j u s t s r e g i o n b o und a r i e s b a s e d o n i nd i v i du a l f Un c t i o n a l c o nn e c t i v i ty p r o f il e s。R e f i n e N e t u s e s a n i t e r a t i v e v o x e l r e a ss i gn m e n t p r o c e du r e t h a t c o n s i d e r s n e i ghb o r h oo d i n f o r ma t i o n w h il e b a l a n c i ng t e m p o r a l c o h e r e n c e o f t h e r e f i n e d p a r c e ll a t i o n。W e v a li d a t e R e f i n e N e t o n r s - f M RI d a t a f r o m t h r ee d i ff e r e n t d a t a s e t s , e a c h o n e g e a r e d t o w a r d s a d i ff e r e n t p r e d i c t i v e t a s k : ( 1 ) c o gn i t i v e f l u i d i n t e lli g e n c e p r e d i c t i o n u s i ng t h e H C P d a t a s e t ( r e g r e ss i o n ) , ( 2 ) a u t i s m v e r s u s c o n t r o l d i a gn o s i s u s i ng t h e A B I D E II d a t a s e t ( c l a ss i f i c a t i o n ) , a nd ( 3 ) l a ngu a g e l o c a li z a t i o n u s i ng a n r s - f M RI b r a i n t u m o r d a t a s e t ( s e g m e n t a t i o n ) .W e d e m o n s t r a t e t h a t R e f i n e N e t i m - p r o v e s t h e p e r f o r ma n c e o f e xi s t i ng d ee p n e t w o r k s f r o m t h e li t e r a t u r e o n e a c h o f t h e s e t a s k s .W e a l s o s h o w t h a t R e f i n e N e t p r o du c e s a n a t o m i c a ll y m e a n i ng f u l s ub j e c t - l e v e l p a r c e ll a t i o n s w i t h h i gh e r t e m p o r a l c o h e r e n c e .
我们介绍了Florence-2,这是一个新型视觉基础模型,具有统一的,及时的代表,用于量级计算机视觉和视觉语言任务。在转移学习方面表现出色时,他们努力通过简单的说明执行各种任务,这意味着处理各种空间层次结构和语义粒度的复杂性。Florence-2旨在将文本推出作为任务说明,并以文本形式产生理想的结果,无论是限制,对象检测,接地还是分割。这种多任务学习设置需要大规模的高质量注释数据。为此,我们使用自动化图像注释和改进的迭代策略,共同开发了1.26亿张图像的FLD-5B。我们采用了一个序列结构,以训练佛罗伦萨-2,以执行多功能和全面的视觉任务。对众多任务的广泛评估表明,佛罗伦萨-2是具有未曾预性零击和微调功能的强大愿景基础模型竞争者。
正电子发射断层扫描(PET)和计算的刻录术(CT)通常共同用于检测肿瘤。PET/CT分割模型可以自动化肿瘤的描述,但是,当前的多模式模型不能完全阐明每种模式中的互补信息,因为它们要么串联PET和CT数据,要么在决策水平上融合它们。为了对抗这一点,我们提出了镜像u-net,它通过将多模式表示形式分配到模态特异性的解码器分支和辅助多模态解码器中,以多模态化的方式代替了传统的融合方法。在这些分支上,镜像u-net标志着一个针对每种模式量身定制的任务,以增强单峰特征,同时保留共享表示中的多模式特征。与以前的方法相比使用了其他方法或多任务学习,Mirror U-net将两个范式结合在一个统一的框架中。我们探索各种任务组合,并检查在模型中共享的哪些参数。我们在Autopet PET/CT和多模式MSD Braintumor数据集上评估了Mirror U-NET,证明了其在多模式分段中的有效性并在两个数据集中实现了先进的性能。代码:https://github.com/zrrrrr1997/ autopet_challenge_mirrorunet