我们介绍𝑆3,一种新颖的方法,用于产生表达性,以动画为中心的3D头和对话中角色的眼睛动画。给定语音音频,导演脚本和摄影3D场景作为输入,我们会自动输出每个角色的头和眼睛的动画3D旋转。𝑆3将动画和心理语言的见解提炼成一个新颖的模块化框架,以捕捉对话式捕捉:音频驱动的节奏性头运动;叙事脚本驱动的象征性的头和眼睛手势;以及根据音频驱动的凝视焦点/厌恶和3D视觉场景显着性计算出的凝视轨迹。我们的评估是四个方面:我们针对地面真相数据和基线替代方案进行定量验证算法;我们进行了一项感知研究,表明我们的结果与先前的艺术相比有利。我们介绍了动画仪控制和对3输出的批评的示例;并提出大量引人入胜且多样化的对话凝视动画。
摘要 - 使用AUSONSOPOUS车辆(AVS)的安全保证方法,通过将AVED测试放在具有挑战性的交通方案中,通过抽象场景规范捕获并在现实的交易模拟器中进行调查,进行系统级安全评估。作为基于方案的AVS测试的第一步,必须对fraffiffim festario的初始场景进行评估。在这种情况下,场景具体化挑战是将抽象交通场景的高级特定规范所采用的,旨在将它们映射到具体场景,在该场景中,为车辆的每个属性定义了确切的数字初始值(例如,位置或速度)。在本文中,我们提出了一种交流场景混凝土化方法,该方法将车辆放置在逼真的路线图上,以便满足通过表达式场景规范语言定义的一组可扩展的抽象约束,该语言也支持不一致的静态发现。然后,抽象约束映射到相应的数字约束,通过具有可自定义的目标函数和约束聚合策略的元启发式搜索来解决。我们对三个现实的路线图进行了一系列实验,以将我们方法的八个配置与状态的三种变体进行比较,并评估其可扩展性。
近年来,视觉语言预训练框架在自然语言过程和计算机视觉方面取得了重大进展,从而在各种下游任务上取得了显着的绩效提高。但是,当扩展到点云数据时,现有的作品主要集中在构建特定于任务的模型上,并且无法提取概括良好的Univer-Sal 3D视觉嵌入。我们仔细研究了语义3D场景理解中的三个常见任务,并获得了对训练模型的开发的关键见解。以这些观察的启发,我们提出了一个视觉语言的预训练框架 - 工作3DVLP(3D视觉语言预训练对象对比度学习),它可以灵活地对3D视觉 - 语言下游任务转移。3DVLP将视觉接地作为代理任务,并引入了对象级别引导检测(OID)损失,以在场景中获得高质量的建议。此外,我们设计对象级交叉对比度对齐(OCC)任务和对象级别的自我对比度学习(OSC)任务,以将对象与示例对齐并显然区分场景中的不同对象。广泛的实验验证了三个3D视觉任务上3DVLP的出色表现,反映了其在语义3D场景理解中的优势。代码可在https://github.com/iridescentttt/3dvlp上找到。
摘要 - 评估和培训自主驾驶系统需要多样化且可扩展的角案例。但是,大多数现有场景生成方法都缺乏可控性,准确性和多功能性,从而导致产生不令人满意的结果。受图像生成中Draggan的启发,我们提出了DragTraffic,这是基于条件扩散的广义,交互式和可控制的交通场景生成框架。dragtraffic使非专家可以通过自适应混合物专家体系结构为不同类型的交通代理生成各种逼真的驾驶场景。我们采用回归模型来基于条件扩散模型提供一般的初始解决方案和改进程序,以确保多样性。通过交叉注意来引入用户注定的上下文,以确保高可控性。在现实世界中的数据集上进行的实验表明,拖拉法在真实性,多样性和自由方面优于现有方法。演示视频和代码可在https://chantss.github.io/dragtraffic/上找到。
摘要 - 度量,语义和拓扑映射的最新进展使自主机器人配备了概念接地能力来解释自然语言任务。利用这些功能,这项工作开发了一种有效的任务计划算法,用于层次度量的语义模式。我们考虑环境的场景图模型,并利用大型语言模型(LLM)将自然语言任务转换为线性时间逻辑(LTL)自动机。我们的主要贡献是在场景图上使用LLM指导启用最佳层次LTL计划。为了达到效率,我们构建了一个层次规划域,该域捕获场景图和任务自动机的属性和连接性,并通过LLM启发式函数提供语义指导。为了确保最佳性,我们设计了一个LTL启发式功能,该功能可证明是一致的,并为多效率计划中的潜在不可接受的LLM指导提供了。我们在虚拟化真实环境的场景图中演示了复杂自然语言任务的有效计划。
二期(A3FOR002C)和III期(A3FOR003C)的应用被捆绑。这两个阶段的容量都是有限的。只有完成I阶段(A3FOR001C)具有令人满意的表现的学生。 如果收到的申请超过容量,则将根据第一阶段(A3FOR001C)的评估结果选择学生。只有完成I阶段(A3FOR001C)具有令人满意的表现的学生。如果收到的申请超过容量,则将根据第一阶段(A3FOR001C)的评估结果选择学生。
如今,由于其多种应用,场景文本识别引起了越来越多的关注。大多数最先进的方法都采用带有注意机制的编码器框架,从左到右生成文本。尽管表现令人信服,但这种顺序解码策略限制了推理速度。相反,非自动回归模型提供了更快的同时预测,但通常会牺牲准确性。尽管使用明确的语言模型可以提高性能,但它会负担计算负载。此外,将语言知识与视觉信息分开可能会损害最终预测。在本文中,我们提出了一种替代解决方案,该解决方案使用平行且迭代的解码器,该解码器采用了简单的解码策略。此外,我们将文本识别视为基于图像的条件文本生成任务,并利用离散扩散策略,确保对双向上下文信息的详尽探索。广泛的实验表明,所提出的方法在基准数据集(包括中文和英语文本图像)上取得了卓越的结果。
图像字幕是一项计算机视觉任务,涉及为图像生成自然语言描述。此方法在各个领域都有许多应用,包括图像检索系统,医学和各种行业。但是,尽管图像字幕进行了重要的研究,但大多数研究都集中在高质量的图像或受控环境上,而没有探索现实世界图像字幕的挑战。现实世界的图像字幕涉及复杂而动态的环境,具有许多关注点,图像通常在质量上非常差,甚至对于人类而言,这也是一项艰巨的任务。本文评估了在不同编码机制,语言解码器和培训程序之上构建的各种模型的性能,使用新创建的现实世界数据集由使用MIT室内场景数据集构建的65多个不同场景类的800多个图像组成。该数据集使用IC3方法字幕,该方法通过汇总来自图像的唯一视图点的标准图像字幕模型所涵盖的详细信息来生成更具描述性字幕。
为主动和被动的光学感官技术提供了互补的方式。此外,现有的雷达传感器具有很高的成本效益,并且在运行在户外操作的机器人和车辆中。我们介绍了雷达场 - 一种为活动雷达成像器设计的神经场景重建方法。我们的方法将具有隐式神经几何形状和反射模型的显式,物理知识的传感器模型团结起来,以直接合成原始雷达测量并提取场景占用率。所提出的方法不依赖卷渲染。相反,我们在傅立叶频率空间中学习字段,并通过原始雷达数据监督。我们验证了我们在各种室外场景中的有效性,包括带有密集车辆和基础设施的城市场景以及MM波长感应的恶劣天气情况。