自主机器人系统近年来引起了越来越多的关注,在这种环境中,环境是机器人导航,人类机器人互动和决策的关键步骤。现实世界机器人系统通常会从多个传感器中收集视觉数据,并经过重新识别以识别许多对象及其在复杂的人拥挤的设置中。传统的基准标记,依赖单个传感器和有限的对象类和场景,无法提供机器人对策划导航,互动和决策的需求的综合环境理解。作为JRDB数据集的扩展,我们揭开了一种新颖的开放世界式分割和跟踪基准,介绍了一种新型的开放世界式分割和跟踪基准。JRDB-Panotrack包括(1)各种数据室内和室外拥挤的场景,以及
阅读过程中抽象的眼动动作提供了一个了解认知过程和语言理解的窗口,但是缺少中断数据的稀缺性 - 学习者在日常学习环境中经常遇到这些数据 - 妨碍了智能学习技术发展的进步。我们介绍了Interead - 一种新颖的50个参与者数据集的目光数据集,该数据集在对现实世界文本的自定进度读取过程中记录。Interead进一步提供了整个文本中散布的中断的细粒度注释以及这些中断产生的恢复滞后。中断。我们通过报告有关凝视行为的不同度量的跨学科分析来验证我们的数据集。与先前的研究一致,我们的分析表明,中断以及单词长度和单词频率效应会显着影响阅读过程中的眼睛运动。我们还探索了数据集中的个体差异,从而阐明了量身定制的教育解决方案的潜力。可以从我们的数据集访问网页:https://www.ife.uni-stuttgart.de/en/llis/research/datasets/。
○Harmonie – Arome基于Aladin联盟内开发的模型(地图上的蓝色国家)○○与AROME-FRANCE相同的非静态动力学核心○更新到该模型的物理参数化,配置选择和脚本系统●Accord common and contoct and contoct and contoct of ifs-arpege frr frrige and ifs-arpege M Moutrf,
抽象能够将他人的活动映射到自己的观点中,即使从很小的时候就开始是一种基本的人类技能。迈向理解这种人类能力的一步,我们介绍了EgoExolearn,这是一个大规模的数据集,该数据集在过程之后模仿人类的演示,在该过程中,个人在执行以exentric-exentric-view示范视频为指导的任务时记录了以自我为中心的视频。关注日常援助和专业支持中的潜在应用,Egoexolearn Conconconconconconconconconconcons conconce concection和示范视频数据涵盖了在日常生活场景和专业实验室中捕获的120小时的120小时。与视频一起,我们记录了高质量的凝视数据并提供了详细的多模式注释,并构建了一个游乐场,用于建模人类从不同观点桥接异步程序动作的能力。为此,我们提出了基准,例如跨视图协会,跨视图行动计划和跨视图所引用的技能评估以及详细的分析。我们期望EgoExolearn可以作为跨越观点弥合行动的重要资源,从而为创建能够通过在现实世界中观察人类进行缝隙学习的AI代理铺平了道路。数据集和基准代码可在https://github.com/opengvlab/egoeexolearn上找到。
本文介绍了一种新颖的“公平性”数据集,以衡量 AI 模型对不同年龄、性别、表观肤色和环境光照条件的稳健性。我们的数据集由 3,011 名受试者组成,包含 45,000 多个视频,平均每人 15 个视频。这些视频是在美国多个州录制的,参与者是不同年龄、性别和表观肤色组的成年人。一个关键特征是每个受试者都同意参与并使用他们的肖像。此外,我们的年龄和性别注释由受试者自己提供。一组训练有素的注释者使用 Fitzpatrick 皮肤类型量表标记受试者的表观肤色 [ 6 ]。此外,还提供了在低环境光下录制的视频的注释。作为衡量跨某些属性的预测稳健性的应用,我们评估了最先进的表观年龄和性别分类方法。我们的实验从公平对待来自不同背景的人的角度对这些模型进行了彻底的分析。
感知在各种机器人应用中起着至关重要的作用。但是,现有的良好的数据集偏向自动驾驶场景,而未标记的SLAM数据集则很快过于拟合,并且通常缺乏环境和域变化。为了扩大这些领域的边界,我们介绍了一个名为MCD(Multi-campus数据集)的全面数据集,其中包含各种感应方式,高准确的地面真相以及在三个欧亚大学的欧亚大学校园内的挑战性环境。MCD包括CCS(经典的圆柱旋转)和NRE(非重复性环球)LIDAR,高质量的IMU(惯性测量单元),相机和UWB(URWB(Ultra-Wideband))传感器。更重要的是,在开创性的努力中,我们引入了29堂课的语义注释,超过59k稀疏的nre lidar扫描
当前用于自动驾驶计算机视觉的深层神经网络(DNNS)通常在仅涉及单一类型的数据和urban场景的特定数据集上进行培训。因此,这些模型努力使新物体,噪音,夜间条件和各种情况,这对于安全至关重要的应用至关重要。尽管持续不断努力增强计算机视觉DNN的弹性,但进展一直缓慢,部分原因是缺乏具有多种模式的基准。我们介绍了一个名为Infraparis的新颖和多功能数据集,该数据集支持三种模式的多个任务:RGB,DEPTH和INDRARED。我们评估了各种最先进的基线技术,涵盖了语义分割,对象检测和深度估计的任务。更多可视化和
人类情感识别一直是心理物理学和计算机视觉的重要主题。但是,经常发布的数据集有许多局限性。进行检查,大多数数据集都包含仅包含有关面部表情的信息的框架。由于以前的数据集的局限性,很难理解影响人类识别的机制,或者在这些数据集中训练的计算机视觉模型上对人类的识别良好。在这项工作中,我们介绍了一个全新的大型数据集,基于视频的情感并影响上下文数据集(VEATIC)中的跟踪,可以征服先前数据集的限制。Veatic在好莱坞电影,纪录片和家庭视频中有124个视频片段,并通过实时注释进行了连续的价和唤醒评级。与数据集一起,我们采用了一项新的计算机视觉任务,以通过每个视频框架中的上下文和字符信息来推断所选字符的影响。此外,我们提出了一个简单的模型来基准这项新的计算机视觉任务。我们还使用数据集与其他类似数据集进行了预处理模型的性能。实验显示了通过VEATIC验证的模型的竞争结果,表明VEATIC的普遍性。我们的数据集可从https://veatic.github.io获得。
为了推进基于学习的融化算法的研究,已经开发了各种合成雾数据集。但是,现有的数据集使用大气散射模型(ASM)或十个实时渲染引擎而努力产生光真实的雾图像,以准确模仿实际的成像过程。这种限制阻碍了模型从合成到真实数据的有效概括。在本文中,我们引入了旨在生成照片现实的雾图图像的端到端模拟管道。该管道全面构建了整个基于物理的雾化场景成像,与现实世界图像捕获的方法紧密相位。基于此管道,我们提出了一个名为Synfog的新合成雾数据集,该数据集具有天空和主动照明条件以及三个级别的雾气状态。实验结果表明,与其他人相比,在与其他模型中相比,与其他人相比,在synfog上训练的模型在视觉感知和检测准确性方面表现出了较高的性能。
本文通过利用大型预训练模型来探讨合成数据的潜力,尤其是在面对分布变化时。al-尽管生成模型的最新进展已经阐明了跨分布数据发生的几项先前的作品,但它们需要模型调整和复杂的设置。为了绕过这些缺点,我们介绍了主要的g a a a a a a a a embeddings(doge),这是一个跨分布的插件语义数据augpection框架,几乎没有射击设置。我们的方法以潜在形式提取源和所需数据分布之间的差异,然后引导生成过程,以补充无数多种合成样本的训练集。我们的评估是在几个射击范式下进行亚种群偏移和三个领域适应方案进行的,表明我们的多功能方法改善了各个任务的性能,需要进行动手干预或复杂的调整。Doge铺平了毫不费力地生成遵循测试分布的现实,可转让的合成数据集的道路,从而加强了下游任务模型的现实世界效率。