摘要。传统的3D面模型基于带纹理的网格表示。最重要的模型之一是火焰(通过刻板模型和表达式学习的面孔),它会产生完全可控制的人脸的网格。不幸的是,此类模型在捕获几何和外观细节方面存在问题。与网格表示相反,神经辐射场(NERF)产生极其清晰的渲染。但是,隐式很难动画,并且不能很好地推广到看不见的表达。有效控制NERF模型以获得面部操纵并不是微不足道的。本文提出了一种名为Nerflame的新方法,该方法结合了NERF和火焰方法的优势。我们的方法使NERF具有高质量的渲染能力,同时对视觉外观完全控制,类似于火焰。与使用神经网络进行RGB颜色和体积密度建模的传统基于NERF的结构相反,我们的方法将火焰网格用作独特的密度体积。因此,颜色值仅存在于火焰网格的附近。我们的模型的核心概念涉及根据其与网格的接近度调整体积密度。此火焰框架无缝地融合到NERF体系结构中,以预测RGB颜色,从而使我们的模型能够明确并隐式地捕获RGB颜色。
最近的研究使会说话的头视频的渲染能够捕捉到高富达的头部动态。然而,对详细的身份 - 特定的微表达和自发运动进行建模,例如唇部运动和眼睛闪烁,同时在听觉和视觉信号之间实现高度同步,这一挑战是一个挑战。在本文中,我们借助于散布的音频来解决此问题。具体来说,我们首先提取将保留特定于身份信息的核心听觉组件(content,timbre,ronythm和pitch)中脱离的音频功能。然后,散布的音频嵌入与视觉嵌入一起馈入条件隐式功能,以便学习高质量的视听映射以获取细节。实验结果表明,我们的方法可以(1)成功渲染针对每个正在建模的人的个性化的详细的身份 - 特定于特定的微表达,(2)提高了音频视觉渲染结果的保真度。
最重要的是,我要感谢 Laurent Bougrain,我的主管、我的同事、我近六年来的异国跋涉伙伴,首先是他给了我机会从事我所关心的课题,但高于一切。这一切都归功于在日常工作中为我提供了极大的主动性自由。感谢您招募我参加辅导项目,感谢您为我提供自愿实习机会,没有它整个论文就不会完成!感谢您为我提供研究实习机会,让我继续冒险!感谢你们对我如此珍视的这个论文项目的信任和支持,我们对此进行了热烈的辩护,甚至还设立了实验室助理们至今还记得的“开箱即用”的资助。我不会忘记您在教我研究的所有方面时表现出的耐心,包括与科学方面有关的方面以及与实验室的政治和管理有关的方面!花了多少时间讨论新协议、新假设、简单想法,而今天,对于大多数人来说,这些想法已经实现了!感谢您对我的信任,每次我到您的办公室见您时都会说“劳伦特,我有一个新想法!”。你本可以约束我,叫我停下来(尤其是在写作期前几个月),但不,你总是知道如何保持正确的措施来引导我溢出的能量!这个
Xu,Dejia等。“ Neurallift-360:将野外2D照片提升到具有360度视图的3D对象。”IEEE/CVF计算机视觉和模式识别会议的会议记录。2023。2。
神经辐射场(NERFS)在各种应用程序中都表现出有希望的结果,已获得流行。据我们所知,现有作品并未明确对训练相机姿势的分布进行建模,或者因此是三角测量质量,这是影响重建质量的关键因素,它可以追溯到经典视觉文献。 我们用Provernf缩小了这一差距,该方法是将每个点的出处(即可能可见的位置)建模为NERFS作为随机场的方法。 我们通过将隐式最大似然估计(IMLE)扩展到具有优化目标的功能空间来实现这一目标。 我们表明,在NERF优化过程中对每点出处进行建模丰富了模型,并提供了三角剖分的信息,从而改善了新型视图合成和在针对竞争性基线的具有挑战性的稀疏,无约束的视图设置下的不确定性估计。据我们所知,现有作品并未明确对训练相机姿势的分布进行建模,或者因此是三角测量质量,这是影响重建质量的关键因素,它可以追溯到经典视觉文献。我们用Provernf缩小了这一差距,该方法是将每个点的出处(即可能可见的位置)建模为NERFS作为随机场的方法。我们通过将隐式最大似然估计(IMLE)扩展到具有优化目标的功能空间来实现这一目标。我们表明,在NERF优化过程中对每点出处进行建模丰富了模型,并提供了三角剖分的信息,从而改善了新型视图合成和在针对竞争性基线的具有挑战性的稀疏,无约束的视图设置下的不确定性估计。
仅提示在图形,VR,电影和游戏等各个领域都有应用。尽管文本提示允许对生成的3D资产进行某种程度的控制,但通常很难准确地控制其身份,几何形状和外观,仅使用文本来控制其身份,几何形状和外观。尤其是这些方法缺乏生成特定受试者的3D资产的能力(例如,特定的狗而不是普通狗)。能够生成特定于3D的主题3D资产将显着减轻艺术家和3D获取的作品流量。在个性化特定于2D图像生成的受试者T2I模型中取得了显着的成功[13,21,38]。这些技术允许在不同上下文中生成特定主题图像,但它们不会生成3D资产或负担任何3D控制,例如观点变化。在这项工作中,我们提出了“ Dreambooth3d”,这是一种主题驱动的文本到3D代的方法。给定了几个(3-6)的图像捕获主题的图像(没有任何其他信息,例如相机姿势),我们生成了主题 - 特定的3D资产,这些资产也遵守输入文本提示中提供的上下文化。也就是说,我们可以生成具有给定主题的几何和外观身份的3D资产,同时也尊重变化(例如输入文本提示提供的睡眠或跳狗)。对于Dreambooth3d,我们从重点作品[33]中汲取灵感[33],该灵感使用T2I扩散模型得出的损失来优化NERF模型。我们观察到,简单地为给定主题个性化T2I模型,然后使用该模型来优化NERF,易于多种故障模式。一个关键问题是个性化的T2i模型往往会过度符合仅存在于稀疏主题图像中的相机观点。因此,从任意连续的角度来看,这种个性化T2I模型的结果损失不足以优化连贯的3D NERF资产。使用Dreambooth3D,我们提出了一个有效的优化方案,在该方案中,我们可以相互优化NERF资产和T2I模型,以共同使它们具有特定于主题。我们利用DreamFusion [33]进行NERF优化,并使用Dreambooth [38]进行T2I模型。特别是,我们提出了一个三阶段优化框架,在第一个阶段,我们部分地为Dreambooth模型进行了缩减,然后使用DreamFusion来选择NERF资产。部分填充的Dreambooth模型不会过分符合给定的主题视图,但也不会捕获所有特定于主题的细节。因此,结果NERF资产是3D相干的,但不是主体。在第二阶段,我们将Dreambooth模型完全填充,以捕获主题的细节并使用该模型来构建多视伪对象图像。也就是说,我们使用训练有素的Dreambooth模型将多视效果从训练有素的NERF转换为主题图像。在最终阶段,我们进一步优化了Dreambooth模型us-
摘要 - 隐式表示,例如神经辐射场(NERF),可以通过连续的神经功能在3D场景中绘制颜色,密度和语义。但是,这些模型通常需要手动和仔细的人类数据收集进行培训。本文解决了自主nerf构造的主动探索问题。我们研究代理如何学会有效地探索未知的3D环境,以便在自主性过程中收集的数据能够学习高质量的神经隐式图表示。在四个与机器人相关的下游任务上评估了所学代表的质量:经典的观点渲染,地图重建,计划和姿势改进。我们比较了不同的探索策略的影响,包括基于前沿的基于基础和学习的方法(端到端和模块化)以及针对此问题量身定制的不同奖励功能。经验结果表明,可以使用在看不见的环境中使用一集经验对积极收集的数据进行培训,并且Autonerf是一种经过加固学习训练的模块化勘探策略,使得获得了高质量的NERF,以获得高质量的NERF,以实现经过考虑的下游机器人任务。最后,我们证明,使用Autonerf可以将代理部署到以前未知的场景中,然后通过通过勘探,重建和策略填充的循环来适应场景来自动改善其导航性能。
摘要 - 操纵看不见的对象在没有3D表示的情况下具有挑战性,因为对象通常具有遮挡的表面。这需要与对象的物理互动以构建其内部表示形式。本文提出了一种方法,该方法使机器人能够快速学习给定对象的完整3D模型,以在不熟悉的方向上进行操作。我们使用部分构造的NERF模型的集合来量化模型不确定性,以通过优化信息性和可行性来确定下一个动作(视觉或重新定位动作)。此外,我们的方法决定了何时以及如何掌握和重新定位对象的部分NERF模型,并重新估计对象姿势以纠正交互期间引入的未对准。在带有基准对象的桌面环境中运行的模拟Franka Emika机器人操作器进行的实验表明,视觉重建质量(PSNR)的14%,(ii)20%的几何/深度/深度重建对象表面(f-得分)和(iii)71%在(iii)71%的成功对象率是一定的,该任务范围是A的任务范围,即一定的一定范围。场景中的配置;超过当前方法。其他详细信息显示在以下网址:https://actnerf.github.io/。
神经辐射场(NERF)。•通过文本提示引入了一种针对阿凡达自定义的新文本驱动的模型训练方法。•开发了一种基于Web的应用程序,用于生成个性化的3D化身和风格化的肖像。•在工程技术机构香港