编辑场景图像在各个领域都非常重要,从娱乐,专业摄影和广告设计开始。内容编辑可以为观众创造沉浸式和迷人的体验,有效地传达艺术愿景并实现所需的美学结果。随着深层生成建模的快速发展,已经进行了许多尝试有效地编辑图像的尝试。但是,他们遇到了阻碍潜力的局限性。以前的方法主要集中在2D图像空间中的场景编辑上。他们通常依靠生成先验,例如gan和扩散模型(DM),并采用了诸如修改跨注意机制的技术[Hertz等。2022,2023],以及网络参数的优化[Chen等。2023a; Gal等。2022; Kawar等。2023; Kim等。2022; Ruiz等。2023]在场景图像中编辑外观和对象身份。尽管已做出一些努力将这些方法扩展到3D编辑,但它们忽略了3D提示,并在保持3D一致性方面构成了挑战,尤其是在更改摄像头姿势时。此外,这些方法通常集中在全球场景上,并且缺乏准确地解开对象的能力,从而导致对3D级别对单个对象的控制有限。为了编辑任何场景图像并启用对场景及其单个对象的3D控制,我们提出了3DITSCENE,这是一个新颖的场景编辑框架,该框架利用了新的场景表示形式,语言指导的散布高斯散布。2022; Rombach等。具体而言,给定的图像首先投影到3D高斯人中,这些高斯人通过2D生成的先验进一步完善并富集[Poole等。2022]。因此,我们获得了一个综合的3D场景表示,该表示自然可以为给定图像提供新的视图综合。此外,剪辑中的语言特征被蒸馏到相应的3D高斯人中,将语义引入3D几何形状。这些语义3D高斯人有助于将单个对象从整个场景表示中删除,从而导致语言引导的散布的高斯人进行场景分解。他们还允许更具用户友好的交互作用,即用户可以通过文本查询特定的对象或兴趣。为此,我们的3DITSCENE可实现从2D到3D的无缝编辑,并允许在全球和个人层面上进行修改,使创建者能够精确控制场景组合和对象级的编辑。我们将管道称为3DITSCENE。与以前的工作不同,该作品着重于解决单一类型的编辑,3DITSCENE INTETE-GRETS编辑要求在统一框架内。我们的预告片数字通过展示其在不同场景图像中的应用来演示3DITSCENE的多功能性。我们在各种环境下对3DITSCENE进行了评估,结果证明了基线方法的显着改善。
要控制机器人如何移动,运动计划必须在高维状态空间中计算路径,同时考虑与电动机和关节相关的物理约束,产生平稳稳定的运动,避免障碍物,并防止碰撞。因此,运动计划算法必须平衡竞争需求,并且应非常融合不确定性,以处理噪声,模型错误并促进在复杂环境中的部署。为了解决这些问题,我们基于变异的gaus-sian流程为机器人运动计划介绍了一个框架,该过程统一并概括了基于概率的各种基于概率的运动计划算法,并将它们与基于优化的计划者联系起来。我们的框架提供了一种原则性和灵活的方式,用于基于不平等的基于不平等的不平等和软运动规划的约束,在末端训练期间是直接的,并提供基于间隔和基于蒙特卡洛的不确定性估计值。我们使用不同的环境和机器人进行实验,并根据计划的路径的可行性和障碍避免质量进行比较。结果表明,我们提出的方法在成功率和路径质量之间取得了良好的平衡。
本文提出了一种新的一阶和二阶统计数据分类框架,即均值/位置和协方差矩阵。在过去十年中,已经提出了几种协方差矩阵分类算法。它们通常利用对称正定矩阵 (SPD) 的黎曼几何及其仿射不变度量,并在许多应用中表现出色。然而,它们背后的统计模型假设了零均值。在实践中,它通常在预处理步骤中被估计然后被删除。这当然会对均值作为判别特征的应用造成损害。不幸的是,均值和协方差矩阵的仿射不变度量相关的距离仍然未知。利用以前关于测地三角形的研究,我们提出了两个使用这两种统计数据的仿射不变散度。然后,我们推导出一种计算相关黎曼质心的算法。最后,将基于散度的最近质心应用于农作物分类数据集 Breizhcrops,显示了所提框架的趣味性。
© 作者 2023。开放存取。本文根据知识共享署名 4.0 国际许可协议获得许可,允许以任何媒介或格式使用、共享、改编、分发和复制,只要您给予原作者和来源适当的信用,提供知识共享许可的链接,并指明是否进行了更改。本文中的图像或其他第三方材料包含在文章的知识共享许可中,除非在材料的信用额度中另有说明。如果材料未包含在文章的知识共享许可中,并且您的预期用途不被法定法规允许或超出允许用途,则您需要直接从版权所有者处获得许可。要查看此许可证的副本,请访问 http://creativecommons.org/licenses/by/4.0/。
虽然新颖的视图合成(NVS)在3D计算机视觉中取得了进步,但通常需要从密集的视点对摄像机内在和外部设备进行初始估计。这种预处理通常是通过结构 - 运动(SFM)管道来进行的,这是一种可以缓慢且不可靠的操作,尤其是在稀疏视图方案中,匹配的功能不足,无法进行准确的重建。In this work, we integrate the strengths of point-based representations (e.g., 3D Gaus- sian Splatting, 3D-GS) with end-to-end dense stereo mod- els (DUSt3R) to tackle the complex yet unresolved is- sues in NVS under unconstrained settings, which encom- passes pose-free and sparse view challenges.我们的框架工作,InstantsPlat,用3D-GS统一了密集的立体声先验,以构建稀疏场景的3D高斯大型场景 -
为了自主驾驶模拟,早期尝试[8,32,35]部署游戏引擎来渲染图像。它不仅需要耗时的过程来重建虚拟场景,而且还需要以低现实主义的形式产生结果。,用于新型视图Synthesis(NVS)的神经渲染技术,例如神经辐射场(NERF)[21]和3D高斯分裂(3DGS)[14],用于同步,以使照片现实主义的街道视图进行同步。当前的研究[4、10、20、23、28、39、43、47、48、51、59]主要是街道视图合成中面临的两个挑战:无界场景的重建和染色体对象的建模。尽管已经取得了令人兴奋的进度,但在现有作品中尚未很好地探索评估重建质量的关键问题。众所周知,理想的场景仿真系统应具有高质量的自由视线渲染的能力。目前的作品通常采用从vehicle捕获而在训练阶段却看不见的观点(例如图。1),同时忽略了偏离训练观点的小说观点(例如图。1)。处理这些新颖的观点时,呈现质量的降低明显降低,对现有作品的模糊和伪像,如图1。此问题归因于车辆收集的图像的固有约束视图。训练图像通常沿着车辆的行驶方向捕获,并以车辆的车道为中心。由于车辆的快速行驶速度,框架之间的超偏度有限,因此不允许对现场中的物体进行全面的多视觉观察。因此,可以从稀疏视图中将自动驾驶的街道视图综合任务理解为重建问题。
使用来自几何力学的原理构建的机器人运动的数据驱动模型已显示[Bittner,Hatton等。2018; Dan Zhao,Bittner等。2022; Hatton等。2013]为各种机器人提供机器人运动的有用预测。对于具有有用数量DOF的机器人,这些几何力学模型只能在步态附近构建。在这里,我们展示了如何将高斯混合模型(GMM)用作流形学习的一种形式,该形式学习了几何力学“运动图1”的结构,并证明了:[i]与先前发表的方法相比,预测质量的可观改善; [ii]可以应用于任何运动数据集的方法,而不仅仅是周期性步态数据; [iii]一种预先处理数据集以促进在已知运动图是线性的地方外推的方法。我们的结果可以在数据驱动的几何运动模型的任何地方应用。
光子学是一个很有前途的平台,它通过在明确定义的计算任务上超越最强大的经典超级计算机来展示量子计算优势 (QCA)。尽管前景光明,但现有的提案和演示仍面临挑战。在实验上,高斯玻色子采样 (GBS) 的当前实现缺乏可编程性或损失率过高。从理论上讲,GBS 的经典难度缺乏严格的证据。在这项工作中,我们在改进理论证据和实验前景方面取得了进展。我们提供了 GBS 难度的证据,可与 QCA 最强的理论提案相媲美。我们还提出了一种称为高维 GBS 的 QCA 架构,它是可编程的,可以使用少量光学元件以低损耗实现。我们表明,在适中的系统规模下,高维 GBS 实验优于模拟 GBS 的特定算法。因此,这项工作为使用可编程光子处理器展示 QCA 开辟了道路。
摘要。3D高斯碎片在实时神经渲染中引起了广泛的关注和应用。同时,人们对这种技术在稀疏观点中的限制,绩效和鲁棒性等方面引起了人们的关注,从而导致了各种改进。然而,显然缺乏关注分裂本身固有的局部仿射近似引入的投影错误的基本问题,以及这些错误对照片真实渲染质量的结果影响。本文介绍了3D gaus-sian脱落的投影误差函数,从投影函数的一阶泰勒膨胀开始,从剩余的误差开始。分析建立了误差与高斯平均位置之间的相关性。subsemess,利用功能优化理论,本文分析了该函数的最小值,以提供最佳的投影策略,以涉及最佳的高斯分裂,这可以使各种摄像机模型可观。实验验证进一步提出了这种投影方法可以减少伪影,从而导致更令人信服的现实渲染。
我们证明玻色子和费米子高斯态(也称为“压缩相干态”)可用其线性复结构 J 来唯一表征,该结构是经典相空间上的线性映射。这扩展了基于协方差矩阵的传统高斯方法,并提供了一个同时处理玻色子和费米子的统一框架。纯高斯态可以用兼容凯勒结构的三重 ( G , Ω , J ) 来识别,由正定度量 G、辛形式 Ω 和线性复结构 J 组成,其中 J 2 = − 1 。混合高斯态也可以用这样的三重结构来识别,但 J 2 ̸ = − 1 。我们应用这些方法来展示如何将涉及高斯态的计算简化为这些对象的代数运算,从而得到许多已知和一些未知的身份。我们将这些方法应用于研究(A)纠缠和复杂性、(B)稳定系统的动力学、(C)驱动系统的动力学。由此,我们编制了一份全面的数学结构和公式列表,以并排比较玻色子和费米子高斯态。