在手语制作(SLP)任务中,一种常见的方法是具有独立的手语单词,然后将其运动表示形式串联以形成完整的句子。然而,由于中间缺少框架,该过程构成了挑战,这导致突然过渡并降低平滑度,从而使结果序列难以解释。为了解决此问题,本文介绍了一个量化的矢量量化变异自动编码器(RVQVAE)模型,用于在视频中插值2D关键点运动。我们的实验通过在视频关键点序列中随机隐藏一组帧来模拟单个符号转变。通过将其性能与隐藏帧的基线方法进行比较,可以评估所提出的模型。矩阵距离误差和动态时盘指标的改进表明,RVQVAE模型可为生成中间帧产生有希望的结果。这些发现突出了开发应用程序的潜力,以增强手语的生产以使聋人社区受益。
主要关键词