数据增强方法是手工设计或基于模型的。手工设计的方法,例如视觉效果中的颜色变化和随机裁剪或DNA序列中的突变,需要人类输入,并且通常是特定于数据的,并且与复杂的数据进行了斗争,在这些数据中,小变化显着影响语义。语义与无关的方法(例如添加噪声)存在,但并不总是有效的。此外,手工设计的方法需要更多样本来减轻微妙的语义变化中的风险,这在诸如生物学之类的昂贵域中挑战。使用生成模型(VAE,GAN,扩散)的基于模型的方法改善了视力任务和监督学习的训练,但面临着对多样性,概括和对外部数据的依赖的担忧。
自我监督的单眼深度估计(DE)是一种学习深度的方法,没有昂贵的深度地面真理。但是,它经常在移动物体上挣扎,这些物体违反了训练期间的静态场景假设。为了结束这个问题,我们介绍了一个粗到最新的训练策略,该策略利用了地面与先验接触的地面,该期望是在户外场景中大多数移动物体在地面上造成的。在粗糙的训练阶段,我们将动态类中的对象排除在再投入损失计算中,以避免深度学习不准确。为了对物体的深度进行精确的监督,我们提出了一种新颖的接地式差异平滑度损失(GDS-loss),该损失(GDS-loss)鼓励DE网络将物体的深度与其接地接触点保持一致。随后,在精细的训练阶段,我们完善了DE网络,以了解重新投影损失中对象的详细深度,同时通过使用基于成本量的加权因素利用我们的正则化损失来确保对移动对象区域的准确DE。我们的整体粗表表训练策略可以轻松地与无需修改的方法集成,从而显着提高了挑战性的城市景观和KITTI数据集的DE性能,尤其是在移动对象区域中。
摘要 - 视觉探测器(VO)对于自主系统的导航至关重要,以合理的成本提供准确的位置和方向估计。虽然传统的VO方法在某些条件下脱颖而出,但它们会面临诸如可变照明和运动模糊之类的挑战。深度学习的VO虽然更适应性,但在新环境中可能会面临概括问题。解决这些缺点时,本文提出了一种新型的混合视觉探光(VO)框架,该框架利用了姿势的超级视觉,提供了稳健性和对广泛标签的需求之间的平衡解决方案。我们提出了两种具有成本效益和创新的设计:一种自我监管的同谱预训练,用于从唯一的姿势标签中增强光流学习,以及一个随机的基于贴片的显着点检测策略,以进行更准确的光流贴片提取。这些设计消除了对训练的密集光流标签的需求,并显着提高了系统在多样化和挑战性环境中的概括能力。与密集的光学流程监督最终的最新方法相比,在极端和看不见的情况下,在极端和看不见的情况下,在标准数据集以及更大的鲁棒性和概括能力上实现了竞争性能。
摘要 - 多模式增强学习(RL)的最关键方面之一是不同观察方式的有效整合。具有从这些模式中得出的鲁棒和准确表示是增强RL算法的鲁棒性和样品效率的关键。但是,在RL设置中,用于视觉动作数据的学习表示构成了重大挑战,尤其是由于数据的高维度以及与动态环境和任务目标相关的视觉和触觉输入所涉及的复杂性。为了应对这些挑战,我们提出了多模式对比度无监督的强化学习(M2CURL)。我们的方法采用了一种新颖的多式自我监督学习技术,该技术可以学习有效的代表,并有助于更快的RL算法收敛。我们的方法对RL算法不可知,因此可以与任何可用的RL算法进行集成。我们在触觉健身房2模拟器上评估了M2Curl,并表明它可以显着提高不同操纵任务的学习效率。与没有我们的表示学习方法相比,与标准RL算法相比,每集更快的收敛速率和更高的累积奖励可以证明这一点。项目网站:https://sites.google.com/view/m2curl/ home
自我监督学习是机器学习领域的新兴范式,尤其是深度学习,它专注于通过利用其固有结构来学习有用的数据。自我监督学习的主要目标是使学习过程能够通过使用输入数据本身作为监督的一种形式,而无需依靠大量标记的数据,而无需依靠大量标记的数据。
2023 年,委员会开始监测各司法管辖区对这些原则的实施情况,以促进对监管期望的共同理解,并支持各司法管辖区制定和协调强有力的实践。1 这项工作强调了气候分析作为一种前瞻性工具的重要性,它可以评估银行业务模式和战略对一系列合理的气候相关途径的适应力,并确定气候相关风险驱动因素对其整体风险状况的影响。与此同时,委员会发现,不同司法管辖区和银行的用途和方法各不相同,数据可用性和方法不确定性可能是限制气候分析实现其既定目标的因素。不同司法管辖区的气候分析范围、特征、目标和方法的差异限制了监管期望的协调和结果的可比性。
自动从单个深度进一步检测可抓地的区域是布操作中的关键要素。布料变形的巨大变异性促使当前大多数方法专注于识别特定的握把而不是半偏零件,因为当地区域的外观和深度变化比较大的区域更小,更易于建模。但是,诸如折叠或辅助敷料之类的任务需要识别较大的细分市场,例如语义边缘带有更多信息,而不是点。因此,我们首先仅使用深度图像来解决变形衣服中细粒区域检测的问题。我们实施了T恤的方法,并最多定义了多达6个不同程度的语义区域,包括领口,袖袖和下摆的边缘,以及顶部和底部的握把。我们引入了一个基于U-NET的网络,以细分和标记这些部分。我们的第二个贡献与培训拟议网络所需的监督水平有关。大多数方法都学会
最近基于深度学习的多视图人检测(MVD)方法在现有数据集上显示出令人鼓舞的结果。但是,当前方法主要在具有数量有限的多视图框架和固定相机视图的小型单个场景上进行培训和评估。结果,这些方法可能不可行,可以在更大,更复杂的场景中检测出严重的阻塞和摄像机误差错误。本文着重于通过开发有监督的观点加权方法来改善多视图人的检测,该方法可以更好地融合大型场景下的多相机信息。此外,还采用了大型合成数据集来增强模型的概括性,并实现了更实际的评估和比较。通过简单的域适应技术进一步证明了模型在新测试场景上的性能。实验结果证明了我们方法在实现有希望的跨场所多视角人检测表现方面的有效性。
单眼3D对象检测通常采用直接或静脉标签的监督。最近,蒸馏监督将空间知识从激光雷达或立体声教师网络转移到单眼探测器,但仍保留域间隙。To mitigate this issue and pursue ade- quate label manipulation, we exploit F oreground D epth map for feature-supervised monocular 3D object detection named FD3D , which develops the high-quality instructive interme- diate features to conduct desirable auxiliary feature supervi- sion with only the original image and annotation foreground object-wise depth map (AFOD) as input.此外,我们基于图像功能和预处理的AFOD之间的足够相互关系来建立我们的具有启发性的功能生成网络,以构建具有启发性的空间特征,在此中,AFOD仅将注意力集中在前景上,以在检测任务中获得更清晰的指导。更重要的是,我们应用了从像素和分布级别的辅助功能监督,以实现全面的空间知识指导。广泛的实验表明,我们的方法在Kitti和Nuscenes数据集上都实现了最先进的性能,没有外部数据,也没有额外的推理计算成本。我们还进行实验以揭示设计的有效性。
目光的估计已成为最近研究日益兴趣的主题。大多数当前方法都依赖于单视面图像作为输入。然而,这些副本很难处理较大的头部角度,从而导致估计的准确性。要解决此问题,添加二视摄像头可以帮助更好地捕获眼睛的外观。但是,现有的多视图方法具有两个限制。1)他们需要培训的多视图注释,这很昂贵。2)更重要的是,在测试过程中,必须知道多个相机的确切位置并与训练中使用的相匹配,这限制了应用程序场景。为了应对这些挑战,我们提出了一种新颖的1视图 - 2视图(1-2视图)适应解决方案,在本文中,无监督的1-2视图适应框架 - 用于注视估计的工作(UVagaze)。我们的方法适应了一个传统的单视凝视估计器,以灵活地放置了双摄像头。在这里,“灵活”意味着我们将双摄像头放在任意位置,而不论训练数据如何,而不知道它们的外部参数。具体来说,乌瓦加兹(Uvagaze)建立了双视图相互监督适应策略,它利用了两种观点之间的凝视方向的内在一致性。以这种方式,我们的方法不仅可以从常见的单视图预训练中受益,而且还可以实现更高级的双视凝视估计。实验结果表明,单视图估计量适用于双重视图,可以获得更高的效果,尤其是在跨数据集设置中,取代率提高了47.0%。项目页面:https://github.com/ mickeyllg/uvagaze。