神经辐射场(NERFS)在各种应用程序中都表现出有希望的结果,已获得流行。据我们所知,现有作品并未明确对训练相机姿势的分布进行建模,或者因此是三角测量质量,这是影响重建质量的关键因素,它可以追溯到经典视觉文献。 我们用Provernf缩小了这一差距,该方法是将每个点的出处(即可能可见的位置)建模为NERFS作为随机场的方法。 我们通过将隐式最大似然估计(IMLE)扩展到具有优化目标的功能空间来实现这一目标。 我们表明,在NERF优化过程中对每点出处进行建模丰富了模型,并提供了三角剖分的信息,从而改善了新型视图合成和在针对竞争性基线的具有挑战性的稀疏,无约束的视图设置下的不确定性估计。据我们所知,现有作品并未明确对训练相机姿势的分布进行建模,或者因此是三角测量质量,这是影响重建质量的关键因素,它可以追溯到经典视觉文献。我们用Provernf缩小了这一差距,该方法是将每个点的出处(即可能可见的位置)建模为NERFS作为随机场的方法。我们通过将隐式最大似然估计(IMLE)扩展到具有优化目标的功能空间来实现这一目标。我们表明,在NERF优化过程中对每点出处进行建模丰富了模型,并提供了三角剖分的信息,从而改善了新型视图合成和在针对竞争性基线的具有挑战性的稀疏,无约束的视图设置下的不确定性估计。
神经辐射场(NERFS)在自动驾驶(AD)社区中广受欢迎。最近的方法显示了NERFS进行闭环模拟的潜力,广告系统的启动测试以及作为先进的培训数据增强技术的潜力。但是,现有的方法通常需要较长的训练时间,密集的语义范围或缺乏普遍性。这反过来妨碍了NERF的应用在大规模上应用于AD。在本文中,我们提出了一种针对动态AD数据量身定制的可靠的新型视图合成方法。我们的方法具有简单的网络设计,凸轮和激光镜头的广泛传感器建模 - 包括滚动快门,梁发散和射线掉落 - 并且适用于开箱即用的多个数据集。我们在五个受欢迎的广告数据集上验证其性能,从而实现最新的性能。为了鼓励进一步开发,我们公开发布了神经源源代码。
1。Kerbl,B.,Kopanas,G.,Leimkühler,T.,Drettakis,G。:3d高斯脱落,进行实时辐射场渲染。 图形上的ACM交易42(4)(2023)2。 Turki,H.,Ramanan,D.,Satyanarayanan,M。:Mega-nerf:可扩展的大规模nerfs nerfs,用于虚拟飞行。 in:IEEE/CVF会议论文集就计算机视觉和模式识别而言。 pp。 12922–12931(2022)3。 Xu,L.,Xiangli,Y.,Peng,S.,Pan,X.,Zhao,N.,Theobalt,C.,Dai,B.,Lin,D。:网格引导的大型城市场景的神经辐射场。 在:IEEE/CVF计算机视觉和模式识别会议论文集。 pp。 8296–8306(2023)4。 Zhenxing,M.,Xu,d。:Switch-nerf:与大规模神经辐射场的专家混合的学习场景分解。 in:第十一国际学习表征(2022)Kerbl,B.,Kopanas,G.,Leimkühler,T.,Drettakis,G。:3d高斯脱落,进行实时辐射场渲染。图形上的ACM交易42(4)(2023)2。Turki,H.,Ramanan,D.,Satyanarayanan,M。:Mega-nerf:可扩展的大规模nerfs nerfs,用于虚拟飞行。 in:IEEE/CVF会议论文集就计算机视觉和模式识别而言。 pp。 12922–12931(2022)3。 Xu,L.,Xiangli,Y.,Peng,S.,Pan,X.,Zhao,N.,Theobalt,C.,Dai,B.,Lin,D。:网格引导的大型城市场景的神经辐射场。 在:IEEE/CVF计算机视觉和模式识别会议论文集。 pp。 8296–8306(2023)4。 Zhenxing,M.,Xu,d。:Switch-nerf:与大规模神经辐射场的专家混合的学习场景分解。 in:第十一国际学习表征(2022)Turki,H.,Ramanan,D.,Satyanarayanan,M。:Mega-nerf:可扩展的大规模nerfs nerfs,用于虚拟飞行。in:IEEE/CVF会议论文集就计算机视觉和模式识别而言。pp。12922–12931(2022)3。Xu,L.,Xiangli,Y.,Peng,S.,Pan,X.,Zhao,N.,Theobalt,C.,Dai,B.,Lin,D。:网格引导的大型城市场景的神经辐射场。在:IEEE/CVF计算机视觉和模式识别会议论文集。pp。8296–8306(2023)4。Zhenxing,M.,Xu,d。:Switch-nerf:与大规模神经辐射场的专家混合的学习场景分解。in:第十一国际学习表征(2022)
生成的神经辐射场(NERF)通过学习一组未经未介绍的图像的分布来综合多视图图像,表现出非常熟练的熟练程度。尽管现有的生成nerf具有在数据分布中生成3D一致的高质量随机样本的才能,但创建单数输入图像的3D表示仍然是一个巨大的挑战。在此手稿中,我们介绍了Zignerf,这是一种创新的模型,该模型执行零击生成的对抗网(GAN)倒置,以从单个脱离分布图像中生成多视图。该模型的基础是一个新型逆变器的基础,该逆变器映射到了发电机歧管的潜在代码中。毫无意义,Zignerf能够将对象从背景中解散并执行3D操作,例如360度旋转或深度和水平翻译。使用多个实数数据集对我们的模型的效率进行验证:猫,AFHQ,Celeba,Celeba-HQ和Compcars。
我对3D重建和现实视觉系统和模型感到兴奋。我最近的工作是在深度估计和3D重建,3D高斯脱落和NERF上,生成模型,用于增强现实效果的高级技术以及抽象的场景几何估计。工作经验
与Emova.me公司(https://www.emova.me/)密切合作,来自Irisa和Rennes University的Virtus团队,正在寻求从一些单眼观点中改善Avatars的3D重建。传统上,从多个视图中拟合模板多边形网格(一个3D形态模型)的头像重建方法搜索,并估计照明特性以将材料属性作为2D纹理提取[6]。然而,这些技术存在局限性(处理头发或胡须外观,缺乏镜面,缺乏眼睛或嘴巴等关键特征的精度)。最近的混合技术一直在混合神经辐射场估计(NERFS [4],高斯Splats [3])与基于网格的重建,以通过覆盖模板网层表面上的NERFS,2D或3D Splats来显着提高现实主义水平[1,2,2,7]。然而,这种神经辐射现场技术需要大量的视图来执行定性估计。在有限视图作为输入的情况下,该技术需要依靠强壮的先验,要么通过编码在潜在空间表示中的头像出现[5,7],对数千个真实或合成模型进行了培训,要么通过提供其他指导来确保神经场重建的融合。
神经辐射场(NERFS)是场景,物体和人类的有希望的3D代表。但是,大多数措施方法都需要多视图输入和每场培训,这限制了其现实生活中的应用。此外,熟练的方法集中在单个受试者的情况下,留下涉及严重障碍和挑战性视图变化的互动手的场景。为了解决这些问题,本文提出了一个可见的可见性 - 可见性的NERF(VA-NERF)框架,用于互动。具体来说,给定相互作用的手作为输入的图像,我们的VA-NERF首先获得了基于网格的手表示,并提取了相应的几何和质地。随后,引入了一个功能融合模块,该模块利用了查询点和网格顶点的可见性,以适应双手的特征,从而可以在看不见的区域的功能中进行重新处理。此外,我们的VA-NERF与广告学习范式中的新型歧视者一起进行了优化。与传统的分离器相反,该官员预测合成图像的单个真实/假标签,提议的判别器生成了一个像素的可见性图,为看不见的区域提供了精细的监督,并鼓励VA-NERF提高合成图像的视觉质量。互惠2.6m数据集的实验表明,我们所提出的vanerf的表现明显优于常规的nerfs。项目页面:https://github.com/xuanhuang0/vanerf。
2019-斯坦福大学斯坦福大学实验室研究生研究助理。{发明了用于处理神经网络的权重和梯度的阶层(https://github.com/allanyangzhou/nfn){提出的技术以自动从数据中学习增强和对称性。 https://bland.website/spartn/)2023学生研究员,DeepMind,Google。{詹姆斯·哈里森(James Harrison)博士2022 ML研究顾问Natera,用于神经网络的优化者的原则建筑设计。{使用蛋白质序列的大型语言模型来评估与人类疾病相关基因的致病性2021-2022研究实习生,Fair Robotics,Facebook/Meta。{与Aravind Rajeswaran博士和Vikash Kumar博士和Vikash Kumar博士2018-2019 AI居民Brain Robotics,Google一起进行深入强化学习的概括研究。
摘要。最近,3D高斯脱衣舞(3D-GS)在新型视图综合中广受欢迎。它解决了与神经辐射场(NERFS)相关的冗长训练时间和缓慢的渲染速度的挑战。通过3D高斯人的快速,可区分的栅格化,3D-GS实现了实时重新定位和加速训练。但是,他们需要训练和存储的大量记忆,因为它们需要数百万高斯人在每个场景的云云表示中。我们提出了一种利用量化嵌入的技术,可以显着减少每点存储器存储的需求,并采用粗到最佳的训练策略,以更快,更稳定的优化高斯点云。我们的方法发展了一个修剪阶段,从而导致场景表现形式减少,从而导致更快的训练时间和渲染速度,以实时渲染高分辨率场景。在保留重建质量的同时,我们将存储记忆降低了超过一个数量级。我们验证方法在保留视觉质量的各种数据集和场景上的有效性,同时消耗10-20×较小的内存和更快的训练/推理速度。项目页面和代码可在此处提供。