朝着具有非手动标记的AI驱动的手语产生

标志语言对于聋哑和听力障碍(DHH)社区至关重要。手语的生成系统有可能通过将英语等书面语言转换为签名视频来支持交流。但是,由于语法结构的不良翻译,缺乏面部提示和肢体语言以及视觉和运动保真度不足,当前系统通常无法满足用户需求。我们通过基于LLM和视频生成模型的最新进展来解决这些挑战,以将英语句子转化为自然的AI ASL签名者。文字…

来源:Apple机器学习研究

标志语言对于聋哑和听力障碍(DHH)社区至关重要。手语的生成系统有可能通过将英语等书面语言转换为签名视频来支持交流。但是,由于语法结构的不良翻译,缺乏面部提示和肢体语言以及视觉和运动保真度不足,当前系统通常无法满足用户需求。我们通过基于LLM和视频生成模型的最新进展来解决这些挑战,以将英语句子转化为自然的AI ASL签名者。我们的模型的文本组件提取了ASL的手册和非手动组件的信息,这些信息用于合成骨骼姿势序列和相应的视频帧。我们对30名DHH参与者和彻底技术评估的用户研究的发现表明了取得的重大进展,并确定了满足用户需求所需的关键领域。