1。引言创建照片现实和动态的人类化身具有广泛的应用,包括虚拟试验,电影和游戏制作,虚拟助手,AR/VR以及远程介绍。传统上,此过程需要培训,这使得普通用户无法访问。最近,基础扩散模型的进步加速了旨在使3D Human Avatar创建民主化的研究工作,从而可以通过文本[16、46、51、88]或图像[39]易于用户控制。早期的3D人头像创作的方法将头发,身体和衣服作为单层表示,因此由于其纠缠的几何形状,很难独立模拟或编辑每个区域。为了解决这一限制,重新制作的工作使用了分层结构来分别反映身体,服装或头发[27,36,82,96]。,这些方法中的许多方法都依赖于nerf [58]等隐性代表来定义服装或毛发地理。尽管隐式表示有助于从基础扩散模型中利用先验知识,但它们在现有模拟器中进行动画挑战,这是由于身体运动而引起的头发和服装的现实运动。结果,这些方法难以生产动画时看起来很现实的化身。因此,出现了一个自然的问题:我们可以设计3D化身生成管道,该管道可以利用图像扩散模型中的丰富的先验知识,同时与现有的模拟管道兼容?解决此问题的关键挑战在于连接当前模拟器和文本驱动的头像生成管道中使用的不同表示。前者通常会重新使用平滑清洁的非紧密网格或特定设计的头发链,其拓扑是可以优化的,并且很难约束。十大的后者采用隐式表示(例如NERF [58]或SDF [83]),尽管它们可通过嘈杂的监督信号来优化来自扩散模型的嘈杂监督信号,但不能轻易地转换为适合模拟的开放网格或发束。为了解决这些问题,我们提出了一个新颖的框架Simavatar,该框架从文本提示中生成了3D人体化身,可以很容易地通过现有的头发和服装模拟器来动画。关键思想是为不同的人类部位(例如头发,身体和服装)采用合适的代表,并利用图像扩散模型和模拟器的先验知识。为此,我们提出了使用头发束代表人头发,身体和饰物的几何形状,参数身体模型SMPL [55],
文本驱动的3D场景生成技术近年来取得了迅速的进步。他们的成功主要是为了使用现有的生成模型进行迭代执行图像翘曲和介入以生成3D场景。但是,这些方法在很大程度上依赖于现有模型的外部,从而导致几何和外观中的错误积累,从而阻止模型在各种情况下使用(例如,户外和虚幻的SCE-Narios)。为了解决此限制,我们通常通过查询和聚集全局3D信息来完善新生成的本地视图,然后逐步生成3D场景。具体而言,我们采用基于三平面特征的NERF作为3D场景的统一表示,以限制全局3D的一致性,并提出一个生成的改进网络,通过从2D差异模型以及当前场景的全球3D信息中利用自然图像来综合具有更高质量的新内容。我们的广泛实验表明,与以前的方法相比,我们的方法支持各种各样的场景产生和任意相机传播,并具有提高的视觉质量和3D一致性。
尽管神经辐射场 (NeRF) 在图像新视图合成 (NVS) 方面取得了成功,但 LiDAR NVS 仍然基本上未被探索。以前的 LiDAR NVS 方法采用了与图像 NVS 方法的简单转变,同时忽略了 LiDAR 点云的动态特性和大规模重建问题。鉴于此,我们提出了 LiDAR4D,这是一个可微分的 LiDAR 专用框架,用于新颖的时空 LiDAR 视图合成。考虑到稀疏性和大规模特性,我们设计了一种结合多平面和网格特征的 4D 混合表示,以由粗到细的方式实现有效重建。此外,我们引入了从点云衍生的几何约束来提高时间一致性。对于 LiDAR 点云的真实合成,我们结合了光线丢弃概率的全局优化来保留跨区域模式。在 KITTI-360 和 NuScenes 数据集上进行的大量实验证明了我们的方法在实现几何感知和时间一致的动态重建方面具有优越性。代码可在 https://github.com/ispc-lab/LiDAR4D 获得。
新型视图合成由于基于越来越强大的NERF和3DGS方法而经历了重大进步。但是,反光对象的重新构造仍然具有挑战性,缺乏适当的解决方案来实现实时,高质量的渲染,同时适应反射。为了填补这一空白,我们引入了一个反光的高斯裂(ref-gaussian)框架,并具有两个组件:(i)基于物理的递延渲染,通过公式化的分裂近似来赋予像素级材料的渲染方程; (ii)首次意识到高斯跨度范式内的反射函数的高斯基间反射。为了增强几何形状建模,我们进一步引入了材料感知的诺尔传播和初始的人均阴影阶段,以及2d gaus-sian原始阶段。在标准数据集上进行的广泛实验表明,在定量指标,视觉质量和计算效率方面,参考文献超过了现有方法。此外,我们表明我们的方法是反射性场景和非反射场景的统一解决方案,超越了以前的替代方案,仅着眼于反思场景。另外,我们说明Ref-Gaussian支持更多的应用程序,例如重新设计和编辑。
从任意观点以及适应不断变化的拓扑结构的表面重构。涉及人类或机器人相互作用与物体的场景需要动态适应分裂,合并或变形的表面。热热,下游应用,例如视觉效果和无标记运动捕获,从不依赖模板的情况下跟踪持久区域的能力显着。因此,方法必须有效地处理这些拓扑更改,以确保高质量的渲染和准确的重建,同时还要维护对现有表面的同意跟踪。经典方法主要依赖于网格和tex曲线图,这些图提供了合理的外观,但重大取决于网格分辨率。他们常常无法准确地确定细节和观察依赖性效果。al-尽管这些网格表示可以进行一定程度的跟踪,但它们努力处理重大的拓扑变化,需要新的关键帧以适应ma-jor变换。神经辐射场的出现(NERF)[28]在静态[1,46]和dy-namic场景[17,30]的外观和新型综合方面有了显着改善。使用Marting Cubes [37,44]可以从隐式签名的距离功能(SDF)得出表面,但除非使用了不足的模板,否则它们缺乏一致的跟踪。最近,出现了3D高斯脱落(3DGS)[20],具有明确的纹理代表,在外观上与NERF竞争,同时实现了更有效的效果。这些高斯人与网格面一起移动,以表示移动和变形的对象。其明确表示有助于跟踪,并为此开发了几种技术[26,50]。然而,准确的动态表面重建仍然是一个挑战,并且在现有表面的跟踪与引入新的表面保持平衡被证明很困难。为了应对这些挑战,我们提出了GSTAR,该方法能够重建光真逼真的外观和准确的表面几何形状,并随着拓扑变化而保持一致的跟踪。GSTAR利用多视图盖,并将网眼与绑定的高斯人结合在一起,与高斯表面相结合。当新的表面变得可见时,新的高斯人会产生,并且网格拓扑更新。适应性网格提供了时间一致,准确的几何形状,而高斯人则带来了逼真的外观。这个问题很困难,因为总会有一个折扣。可以通过固定的托架或模板[24,50]更轻松地跟踪的方法倾向于在新的姿势或变形下降低外观和几何形状的质量。相反,过度拟合静态场景的方法[8,14,16]缺乏时间一致性或错过新的框架详细信息。GSTAR通过尽可能多地跟踪面孔来解决这一权衡
摘要 - 本文解决了在复杂制造环境中实施无标记的增强现实(AR)的挑战。使AR系统更加直观,健壮和适应性是使其在行业中成为可能的必需步骤。在不受控制的现实世界环境中遇到的硬约束中,我们显着面对生产线的动态性质以及在组装过程中对象的不断发展的外观。新兴深度学习(DL)方法启用了6D对象构成移动对象的AR注册的估计。但是,他们需要大量的6D对象构成地面真相数据。在现实世界的情况下,由于两个因素:建立精确的6D姿势标签程序的复杂性是在真实生产线中建立准确的6D姿势标签程序的复杂性,并且在整个组装线上遇到了各种各样的对象状态和外观。因此,有必要开发能够处理看不见的对象的替代6D构成估计技术。为此,本文介绍了一条新的管道,依靠HoloLens 2进行数据捕获,神经辐射场(NERF)进行3D模型生成,以及用于6D姿势估计的Megapose。所提出的方法可以实现6D姿势估计,而无需特定对象的训练或辛苦的姿势标签。
得分蒸馏采样(SDS)已被证明是一个重要的工具,可以使大规模扩散先验用于在数据贫困域中运行的任务。不幸的是,SDS具有许多特征性伪像,这些伪影限制了其在通用应用中的有用。在本文中,我们通过将其视为解决从源分布到目标分布的最佳成本传输路径来理解SD及其变体的行为的进展。在这种新的解释下,这些方法试图将损坏的图像(源)传输到自然图像分布(目标)。我们认为,当前方法的特征伪影是由(1)最佳路径的线性近似以及(2)源分布估计差的差。我们表明,校准源分布的文本条件可以产生高质量的生成和翻译结果,而几乎没有额外的开销。我们的方法可以轻松地在许多域上应用,匹配或击败专业方法的性能。我们在文本到2D,基于文本的NERF优化,将绘画转换为真实图像,光学错觉生成和3D素描到现实中演示了其实用性。我们将我们的方法与现有的分数蒸馏采样方法进行了比较,并表明它可以用逼真的颜色产生高频细节。
Main Track 375 Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption Ziteng Cui; Lin Gu; Xiao Sun; Xianzheng Ma; Yu Qiao; Tatsuya Harada Main Track 533 HDMixer: Hierarchical Dependency with Extendable Patch for Multivariate Time Series Forecasting Qihe Huang; Lei Shen; Ruixin Zhang; Jiahuan Cheng; Shouhong Ding; Zhengyang Zhou; Yang Wang Main Track 604 Cross-Covariate Gait Recognition: A Benchmark Shinan Zou; Chao Fan; Jianbo Xiong; Chuanfu Shen; Shiqi Yu; Jin Tang Main Track 1783 Which Is More Effective in Label Noise Cleaning, Correction or Filtering?Gaoxia Jiang; Jia Zhang; Xuefei Bai; Wenjian Wang; Deyu Meng Main Track 620 Let All Be Whitened: Multi-Teacher Distillation for Efficient Visual Retrieval Zhe Ma; Jianfeng Dong; Shouling Ji; Zhenguang Liu; Xuhong Zhang; Zonghui Wang; Sifeng He; Feng Qian; Xiaobo Zhang; Lei Yang Main Track 1539 Identifiability of Direct Effects from Summary Causal Graphs Simon Ferreira; Charles K. Assaad Main Track 794 NuScenes-QA: A Multi-Modal Visual Question Answering Benchmark for Autonomous Driving Scenario Tianwen Qian; Jingjing Chen; Linhai Zhuo; Yang Jiao; Yu-Gang Jiang
AI生成的内容的最新进展显着改善了3D和4D代的现实主义。然而,大多数现有的方法都在忽略非衍生的物理原理的同时,会导致伪像,例如不切实际的变形,不稳定的动态和不可行的对象相互作用。将物理学培训纳入生成模型,这是一个至关重要的研究方向,可以增强结构完整性和运动现实主义。这项调查对物理感知的生成甲基产生进行了综述,从而系统地分析了如何将物理结构整合到3D和4D代中。首先,我们研究了将物理先验纳入静态和动态3D代理的最新作品,基于代表类型的方法对方法进行了分类,包括基于视觉的,基于NERF和基于高斯分裂的方法。第二,我们探索了4D代的新兴技术,重点是用物理模拟对时间动态进行建模的方法。最后,我们对主要方法进行了比较分析,强调了它们的优势,局限性和对不同材料和运动动态的适用性。通过对物理接地AIGC进行深入分析,该调查旨在弥合生成模型和物理现实主义之间的差距,提供见解,以激发人们在物理上一致的内容生成中的未来研究。
12 月 12 日圣诞节 Drop-In 12 月 16 日 Opelika Crush 报名结束 12 月 16 日陶艺报名开始 12 月 16 日排球报名结束 12 月 16-20 日 Theodore 在哪里 12 月 19-21 日 Rocky Brook Rocket 驯鹿快车 2 月 3 日垒球报名开始 2 月 3 日田径报名开始 2 月 3 日情人节舞会报名结束 2 月 7-8 日母子蓝色牛仔舞会 2 月 10 日春季足球报名开始 2 月 13 日年轻之心舞会 2 月 14-15 日父女舞会 2 月 24 日春季足球报名结束 2 月 24 日 Little Tykes 足球报名结束 2 月 27 日陶艺报名开始 2 月 28 日垒球报名结束 2 月 28 日田径运动场报名结束 3 月 1 日 Camp OST 报名开始 3 月 1 日 Start and Turn Camp 报名开始 3 月 10 日 Little Tykes 足球报名结束 3 月 10 日翻滚报名开始 3 月 17 日 DBB 棒球报名开始 3 月 29 日 Nerf War Zone 4 月15 DBB 棒球报名截止日期:4 月 14 日至 18 日成人寻蛋活动 4 月 17 日手电筒寻蛋活动 4 月 18 日水下寻蛋活动 4 月 19 日广场复活节 5 月 17 日母女茶会