摘要 - 在这项工作中,我们专注于机器人操纵领域中无监督的视力 - 语言映射。最近,已经为此任务提出了采用预训练的大语言和视觉模型的多种方法。但是,它们在计算上是要求的,需要仔细对产生的输出进行微调。更轻巧的替代方法是实现多模式变量自动编码器(VAE),可以提取数据的潜在特征并将其集成到联合代码中,这主要是在现有最终模型的图像图像或图像图纸上进行的。在这里,我们探讨了是否以及如何在模拟环境中使用多模式的VAE。基于获得的结果,我们提出了一种模型不变训练替代方案,该替代方法将模拟器中的模型性能提高了55%。此外,我们系统地评估了各个任务(例如对象或机器人位置可变性,干扰器数量或任务长度)所提出的挑战。因此,我们的工作也阐明了使用当前的多模式VAE的潜在益处和局限性,以根据视觉和语言对机器人运动轨迹进行无监督学习。索引术语 - 传感器融合,视觉学习,语义场景理解
指标,例如网络大小,培训时间和生成数据的质量。此外,还研究了潜在的数学,并与gan和vaes的理论基础有关。2。相关的生成模型近年来一直是机器学习领域的重要研究的主题,具有生成的对抗网络(GAN)和变异自动编码器(VAE)是两种最广泛使用的技术。几项研究比较了gan和vaes在不同的数据集和应用程序上的性能,其中一些报道了gan的结果更好(Karras等,2019),而其他人则报告了VAE的更好结果(Bowman等,2019)。该领域最有影响力的论文包括Goodfellow等人。的(2014年)引入了GAN框架,以及Kingma and Welling(2014)的VAE框架的引入,这些框架已在随后的作品中广泛引用。Salimans等。的(2016)论文提出了稳定gan训练的技术,例如为发电机和歧视者使用不同的学习率,而Chen等人。(2016)提出了对GAN框架的修改,该修改允许学习可解释的表示形式。Mescheder等。的(2017)论文提出了一个结合了VAE和gans强度的混合模型,以及Arjovsky等。的(2017)论文提出了对GAN框架的修改,该框架将Wasserstein距离用作目标函数,从而进行了更稳定的训练。Kumar等。 3。 每个Kumar等。3。每个的(2019年)论文提出了对GAN框架的修改,该框架在歧视者中引入了瓶颈,从而提高了性能,而Shen等人则进行了改善。的(2020)论文提出了一种在gan的潜在空间中发现可解释方向的方法,从而可以控制生成的图像的特定属性。方法论3.1数据集我们从MNIST数据集中应用了60,000张培训照片和10,000个手写数字的测试图像。
用生成模型代表一系列非常高维数据在实践中已显示出非常有效的计算。但是,这要求数据歧管允许全局参数化。为了代表任意拓扑的多种流形,我们建议学习变分自动编码器的混合模型。在这里,每个编码器对代表一个歧管的一个图表。我们提出了一个模型权重估计的最大似然估计的损失函数,并选择一个为我们提供图表及其倒置的分析表达的体系结构。一旦学习了流形,我们就将其用于解决逆问题,通过最大程度地减少到学习歧管的数据实现项。为了解决最小化的问题,我们提出了在学习歧管上的riemannian梯度下降算法。我们证明了用于低维玩具示例的方法,以及某些图像歧管上的脱张和电阻抗层造影。关键字:多种学习,混合模型,变异自动编码器,Riemannian优化,反问题
我们进一步了解了变异自动编码器(VAE)对对抗性攻击和其他意见的影响。虽然先前的工作已经开发出算法的方法来攻击和消除vaes,但由于VAE的强大含义,仍然缺乏故障。为了解决这个问题,我们在概率模型中开发了一个新颖的鲁棒性标准:r-稳定性。然后,我们使用它来构建VAE稳健性的第一个理论结果,从而在输入空间中得出了边缘,我们可以为此提供有关所得重建的瓜素。正式,我们能够定义一个区域,在该区域中,任何扰动都会产生类似于原始重新冲突的重构。为了支持我们的分析,我们表明,使用分离的甲基数量训练的VAE不仅在我们的稳健性指标下得分很好,而且可以通过我们的理论结果来解释其原因。
•了解生成AI的基本概念和原理。•掌握与生成建模有关的核心机器学习概念。•解释各种生成模型(gan,vaes,扩散模型等)之间的差异。•使用流行框架(例如Tensorflow,Pytorch)实施和训练生成模型。•应用生成的AI技术来解决不同域中的问题(例如,图像生成,文本