最近的作品表明,使用蒙版自动编码器(MAE)在以自我为中心数据集上进行视觉预测可以改善下游机器人技术任务的概括[40,29]。但是,这些方法仅在2D图像上预处理,而许多机器人应用程序需要3D场景的理解。在这项工作中,我们提出了3D-MVP,这是一种使用蒙版自动编码器进行3D多视图预处理的新方法。我们利用机器人视图变压器(RVT),该变压器(RVT)使用多视图变压器来理解3D场景并预测抓地力姿势动作。我们将RVT的多视图变压器拆分为视觉编码器和动作解码器,并在大规模3D数据集(例如Objaverse)上使用蒙版自动编码预处理其视觉编码器。我们在一组虚拟机器人操纵任务上评估了3D-MVP,并证明了基准的性能提高。我们还在真正的机器人平台上显示出令人鼓舞的结果,并具有最小的填充。我们的结果表明,3D感知预处理是提高样品效率和基于视觉机器人操纵策略的概括的有前途的方法。我们将发布3D-MVP的代码和预估计的模型,以促进未来的研究。
提出了一种评估飞机发动机监测数据的新方法。通常,预测和健康管理系统使用某些发动机部件的退化过程知识以及专业专家意见来预测剩余使用寿命 (RUL)。出现了新的数据驱动方法,可以在不依赖这种昂贵的过程的情况下提供准确的诊断。然而,它们中的大多数都缺乏解释组件来理解模型学习和/或数据的性质。为了克服这一差距,我们提出了一种基于变分编码的新方法。该模型由一个循环编码器和一个回归模型组成:编码器学习将输入数据压缩到潜在空间,以此为基础构建一个自解释的地图,可以直观地评估飞机发动机的劣化率。获得这样一个潜在空间是通过一个由变分推理指导的新成本函数和一个惩罚预测误差的项来规范化的。因此,不仅可以实现可解释的评估,而且还可以实现显著的预测准确性,优于 NASA 流行的模拟数据集 C-MAPSS 上的大多数最先进的方法。此外,我们利用实际涡扇发动机的数据演示了我们的方法在真实场景中的应用。
摘要 - 在过去的十年中,编码器二十字架框架的图像字幕显示出巨大的进步,在过去的十年中,CNN主要用作编码器,LSTM用作解码器。尽管在简单图像中的准确性方面取得了令人印象深刻的成就,但它在时间复杂性和空间复杂性效率方面缺乏。除此之外,如果具有许多信息和对象的复杂图像,则该CNN-LSTM对的性能由于缺乏对图像中显示的场景的语义理解而呈指数降级。因此,要考虑这些问题,我们提出了CNN-GRU编码器解码框架,用于字幕到图像重建器,以考虑到语义上下文以及时间复杂性。通过考虑解码器的隐藏状态,将输入图像及其相似的语义表示是重建的,并且在模型训练过程中使用了语义重建器的重建分数与可能的可能性使用,以评估生成的字幕的质量。结果,解码器会收到改进的语义信息,从而增强了字幕生产过程。在模型测试期间,选择最合适的标题也可行。建议的模型优于最先进的LSTM-A5模型,用于图片的图片字幕,以时间复杂性和准确性。
提出了一种评估飞机发动机监测数据的新方法。通常,预测和健康管理系统使用某些发动机部件的退化过程知识以及专业专家意见来预测剩余使用寿命 (RUL)。出现了新的数据驱动方法,可以在不依赖这种昂贵过程的情况下提供准确的诊断。但是,它们中的大多数缺乏解释组件来理解模型学习和/或数据的性质。为了弥补这一差距,我们提出了一种基于变分编码的新方法。该模型由一个循环编码器和一个回归模型组成:编码器学习将输入数据压缩到潜在空间,以此为基础构建一个自解释的地图,可以直观地评估飞机发动机的劣化率。获取这种潜在空间是通过变分推理引导的新成本函数和惩罚预测误差的项来进行正则化的。因此,不仅实现了可解释的评估,而且还实现了显着的预测准确性,优于 NASA 流行模拟数据集 C-MAPSS 上的大多数最新方法。此外,我们使用来自实际涡扇发动机的数据在现实场景中展示了我们的方法的应用。
摘要:最近的作品表明,使用蒙版自动编码器(MAE)在以自我为中心的数据集上进行视觉预处理可以改善下游机器人技术任务的概括[1,2]。但是,这些方法仅在2D图像上预处理,而许多机器人应用程序需要3D场景的理解。在这项工作中,我们提出了3D-MVP,这是一种使用蒙版自动编码器进行3D多视图预处理的新方法。我们利用机器人视图变压器(RVT),该变压器(RVT)使用多视图变压器来理解3D场景并预测抓地力姿势动作。我们将RVT的多视图变压器拆分为视觉编码器和动作解码器,并在大规模3D数据集(例如Objaverse)上使用蒙版自动编码预处理其视觉编码器。我们在一组虚拟机器人操纵任务上评估了3D-MVP,并证明了基准的性能提高。我们还在真正的机器人平台上显示出令人鼓舞的结果,并具有最小的填充。我们的结果表明,3D感知预处理是提高样品效率和基于视力的机器人操纵策略的有前途的方法。我们将发布代码和验证模型,以促进未来的研究。
本文调查了使用深度强化学习(DRL)训练的政策的弹性,以解决敏捷的地球观察卫星调度问题(AEOSSP),重点是操作过程中反应轮(RW)断层的影响。尽管基于DRL的策略旨在处理动态和不可预见的场景,但在断层条件下的弹性并未得到很好的理解。本研究评估了各种断层场景下此类政策的适应性,从而确定了性能和安全性降解的阈值。调度问题被提出为可观察到的马尔可夫决策(POMDP),并使用在无故障环境中训练的策略解决。然后在各种故障场景中测试该策略,包括单独的RW故障,功率限制,摩擦增加,编码器测量错误以及电池容量。结果探索了界限,随着RW越来越多的断层,发生重大的性能和安全性降解。功率限制,摩擦和电池容量故障会随着故障严重程度的增加而导致逐渐下降的性能下降,并具有明显的安全阈值。但是,由于基于扭矩的态度控制机制,编码器断层的性能影响最小。
摘要 - 深度学习的进展使得通过分析视频在智能环境中远程估算心率变得越来越可行。但是,深度学习方法的一个显着局限性是他们对广泛的标记数据集以进行有效培训的广泛依赖。为了解决这个问题,自我监督的学习已成为有前途的途径。在此基础上,我们引入了一种解决方案,该解决方案利用自我监督的对比度学习来估算远程光插曲 - 声学(PPG)和心率监测,从而降低了对标记数据的依赖性并增强性能。我们建议使用3个空间和3个时间扩增来通过对比度框架训练编码器,然后利用编码器的晚期中间嵌入来进行远程PPG和心率估计。我们在两个公开可用数据集上的实验展示了我们对几种相关作品以及监督学习基准的改进方法的改进,因为我们的结果接近了最先进的方法。我们还进行了彻底的实验,以展示使用不同设计选择的效果,例如视频表示方法,在训练阶段中使用的增强和其他选择。我们还证明了我们提出的方法对减少标记数据的监督学习方法的鲁棒性。
运动预测是指根据历史轨迹和高清图来估算代理商的未来轨迹,是自主驾驶领域的一项基本任务。近年来,运动预测引起了广泛的关注[4、5、7、9、11、17],因为对于机器人车辆进行安全决定至关重要。在现有研究中,MTR [8,13 - 15]系列取得了显着的成功。他们采用编码网络进行场景上下文编码,并与解码器网络配对,该网络从一组意图查询中生成多模式轨迹,这些查询是从预定义的锚定初始化的。我们的解决方案MTR V3是MTR ++ [14]的扩展,这是一个尖端的运动预测框架,并通过将原始LIDAR数据掺入场景编码和意图查询在轨迹解码中的演变而得到改进。具体来说,我们引入了激光雷达编码器,以捕获基本场景上下文信息,例如植被和建筑物,这些信息通常在高清地图中缺少,但对于预测行人运动至关重要。此外,由于锚的稀疏性,香草MTR ++遭受了高回归误差。为了减轻此问题,我们在[8]中采用了不断发展且独特的方案,以根据特定场景适应锚定。利用这些技术,我们的解决方案达到了
扩散模型(DMS)已彻底改变了一般学习。他们利用扩散过程将数据编码为简单的高斯分布。但是,将复杂的,潜在的多模式数据分布编码为单个连续的高斯分布可以说是一个不必要的挑战性学习问题。我们建议通过引入互补的离散la-Tent变量来简化此任务,以简化此任务。我们使用可学习的离散潜在潜在的DMS增强DM,并用编码器推断出DM和DM和编码器端到端。Disco-Diff不依赖于预训练的网络,因此该框架普遍适用。离散的潜伏期可以通过降低DM生成ode的曲率来大大简化学习DM的复杂噪声到数据映射。加法自动回归变压器模型离散潜伏期的分配,这是一个简单的步骤,因为迪斯科舞厅只需要很少有带有小型代码的离散变量。我们在玩具数据,几个图像合成任务以及分子对接方面验证了DISCO-DIFF,并发现引入离散潜在潜伏期始终可以改善模型性能。例如,Disco-Diff在具有ODE Sampler的类调节Imagenet-64/128数据集上获得了最先进的FID分数。
