摘要。近年来,几种流媒体服务的扩散使世界各地的各种受众都可以观看相同的媒体内容,例如电影或电视节目。虽然正在添加翻译和配音服务,以使当地受众访问内容,但支持具有不同能力的人(例如聋哑人和听力难(DHH)通信)可以访问的内容仍在滞后。我们的目标是通过与合成签名者生成手语视频,使DHH社区更容易访问媒体内容。使用相同的签名者对全球视图的给定媒体内容可能有限的吸引力。因此,我们的方法结合了参数建模和生成建模,以生成现实的合成签名者,并根据用户偏好自定义其外观。我们首先通过优化参数模型来重新定位人类手语构成3D手语的头像。然后,使用渲染的化身姿势来调节使用基于扩散的生成模型生成的合成签名者的姿势。合成签名者的外观由通过视觉适配器提供的图像提示控制。我们的结果表明,使用我们的方法生成的手语视频比仅在文本提示下的扩散模型生成的视频具有更好的时间固定性和现实主义。我们还支持多模式的提示,允许用户进一步自定义签名者的外观以备同行多样性(例如肤色,性别)。我们的方法对于签名匿名也很有用。
主要关键词