使用手语模型引导手语注释

人工智能驱动的手语解释因缺乏高质量的注释数据而受到限制。包括 ASL STEM Wiki 和 FLEURS-ASL 在内的新数据集包含专业解释者和数百小时的数据,但仅保留部分注释,因此未得到充分利用,部分原因是这种规模的注释成本过高。在这项工作中,我们开发了一个伪注释管道,以签名视频和英语作为输入,并输出一组可能的注释的排名,包括注释、手指拼写单词和符号分类器的时间间隔。我们的管道使用来自...的稀疏预测

来源:Apple机器学习研究

人工智能驱动的手语解释因缺乏高质量的注释数据而受到限制。包括 ASL STEM Wiki 和 FLEURS-ASL 在内的新数据集包含专业解释者和数百小时的数据,但仅保留部分注释,因此未得到充分利用,部分原因是这种规模的注释成本过高。在这项工作中,我们开发了一个伪注释管道,以签名视频和英语作为输入,并输出一组可能的注释的排名,包括注释、手指拼写单词和符号分类器的时间间隔。我们的管道使用来自手指拼写识别器和隔离符号识别器 (ISR) 的稀疏预测以及 K-Shot LLM 方法来估计这些注释。为了服务于这个管道,我们建立了简单而有效的基线手指拼写和 ISR 模型,在 FSBoard(6.7% CER)和 ASL Citizen 数据集(74% top-1 准确率)上实现了最先进的水平。为了验证并提供黄金标准基准,专业口译员使用包含注释、分类器和手指拼写符号的序列级注释标签对 ASL STEM Wiki 中的近 500 个视频进行了注释。这些人工注释和超过 300 小时的伪注释正在补充材料中发布。

  • † 加劳德大学
  • ** 在 Apple 期间完成的工作