摘要。传统的3D面模型基于带纹理的网格表示。最重要的模型之一是火焰(通过刻板模型和表达式学习的面孔),它会产生完全可控制的人脸的网格。不幸的是,此类模型在捕获几何和外观细节方面存在问题。与网格表示相反,神经辐射场(NERF)产生极其清晰的渲染。但是,隐式很难动画,并且不能很好地推广到看不见的表达。有效控制NERF模型以获得面部操纵并不是微不足道的。本文提出了一种名为Nerflame的新方法,该方法结合了NERF和火焰方法的优势。我们的方法使NERF具有高质量的渲染能力,同时对视觉外观完全控制,类似于火焰。与使用神经网络进行RGB颜色和体积密度建模的传统基于NERF的结构相反,我们的方法将火焰网格用作独特的密度体积。因此,颜色值仅存在于火焰网格的附近。我们的模型的核心概念涉及根据其与网格的接近度调整体积密度。此火焰框架无缝地融合到NERF体系结构中,以预测RGB颜色,从而使我们的模型能够明确并隐式地捕获RGB颜色。
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
神经辐射场(NERFS)在各种应用程序中都表现出有希望的结果,已获得流行。据我们所知,现有作品并未明确对训练相机姿势的分布进行建模,或者因此是三角测量质量,这是影响重建质量的关键因素,它可以追溯到经典视觉文献。 我们用Provernf缩小了这一差距,该方法是将每个点的出处(即可能可见的位置)建模为NERFS作为随机场的方法。 我们通过将隐式最大似然估计(IMLE)扩展到具有优化目标的功能空间来实现这一目标。 我们表明,在NERF优化过程中对每点出处进行建模丰富了模型,并提供了三角剖分的信息,从而改善了新型视图合成和在针对竞争性基线的具有挑战性的稀疏,无约束的视图设置下的不确定性估计。据我们所知,现有作品并未明确对训练相机姿势的分布进行建模,或者因此是三角测量质量,这是影响重建质量的关键因素,它可以追溯到经典视觉文献。我们用Provernf缩小了这一差距,该方法是将每个点的出处(即可能可见的位置)建模为NERFS作为随机场的方法。我们通过将隐式最大似然估计(IMLE)扩展到具有优化目标的功能空间来实现这一目标。我们表明,在NERF优化过程中对每点出处进行建模丰富了模型,并提供了三角剖分的信息,从而改善了新型视图合成和在针对竞争性基线的具有挑战性的稀疏,无约束的视图设置下的不确定性估计。
摘要 - 操纵看不见的对象在没有3D表示的情况下具有挑战性,因为对象通常具有遮挡的表面。这需要与对象的物理互动以构建其内部表示形式。本文提出了一种方法,该方法使机器人能够快速学习给定对象的完整3D模型,以在不熟悉的方向上进行操作。我们使用部分构造的NERF模型的集合来量化模型不确定性,以通过优化信息性和可行性来确定下一个动作(视觉或重新定位动作)。此外,我们的方法决定了何时以及如何掌握和重新定位对象的部分NERF模型,并重新估计对象姿势以纠正交互期间引入的未对准。在带有基准对象的桌面环境中运行的模拟Franka Emika机器人操作器进行的实验表明,视觉重建质量(PSNR)的14%,(ii)20%的几何/深度/深度重建对象表面(f-得分)和(iii)71%在(iii)71%的成功对象率是一定的,该任务范围是A的任务范围,即一定的一定范围。场景中的配置;超过当前方法。其他详细信息显示在以下网址:https://actnerf.github.io/。
最近的研究使会说话的头视频的渲染能够捕捉到高富达的头部动态。然而,对详细的身份 - 特定的微表达和自发运动进行建模,例如唇部运动和眼睛闪烁,同时在听觉和视觉信号之间实现高度同步,这一挑战是一个挑战。在本文中,我们借助于散布的音频来解决此问题。具体来说,我们首先提取将保留特定于身份信息的核心听觉组件(content,timbre,ronythm和pitch)中脱离的音频功能。然后,散布的音频嵌入与视觉嵌入一起馈入条件隐式功能,以便学习高质量的视听映射以获取细节。实验结果表明,我们的方法可以(1)成功渲染针对每个正在建模的人的个性化的详细的身份 - 特定于特定的微表达,(2)提高了音频视觉渲染结果的保真度。