该领域的性能[25]。但是,由于多个问题,当前基于框架的发电机与笑声挣扎。首先,笑声缺乏语音[10]中观察到的强大视听相关性,因此产生真实的音频驱动序列变得更加困难。sec-笑声,欢笑,参与各种肌肉和面部运动的复杂性和变异性,对主要用于语音设计的现有基于框架的发电机构成了挑战。最后,笑声的自发性和上下文依赖性使得很难准确地预先说话者面部移动的时间和强度。在本文中,我们提出了一个新颖的视频扩散模型,该模型利用视频扩散中的最新发展[8,22]来生成基于原始音频输入的真实和同步的笑动画。要解决有限的公共可用音频笑声公司的问题,我们提出了现有数据集的集合来进行培训和评估。我们采用了现有视频发电工程的指标,并设计了一种专门针对笑声生成的新颖指标,以评估我们的结果质量。
主要关键词