使用手语模型引导手语注释 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

使用手语模型引导手语注释

2026年4月30日 00:00 33 Comments

来源:Apple机器学习研究

人工智能驱动的手语解释因缺乏高质量的注释数据而受到限制。包括 ASL STEM Wiki 和 FLEURS-ASL 在内的新数据集包含专业解释者和数百小时的数据，但仅保留部分注释，因此未得到充分利用，部分原因是这种规模的注释成本过高。在这项工作中，我们开发了一个伪注释管道，以签名视频和英语作为输入，并输出一组可能的注释的排名，包括注释、手指拼写单词和符号分类器的时间间隔。我们的管道使用来自手指拼写识别器和隔离符号识别器 (ISR) 的稀疏预测以及 K-Shot LLM 方法来估计这些注释。为了服务于这个管道，我们建立了简单而有效的基线手指拼写和 ISR 模型，在 FSBoard（6.7% CER）和 ASL Citizen 数据集（74% top-1 准确率）上实现了最先进的水平。为了验证并提供黄金标准基准，专业口译员使用包含注释、分类器和手指拼写符号的序列级注释标签对 ASL STEM Wiki 中的近 500 个视频进行了注释。这些人工注释和超过 300 小时的伪注释正在补充材料中发布。

† 加劳德大学

** 在 Apple 期间完成的工作

注释工作中 ASL 符号的使用注释的先进的人工智能完成的质量有效的驱动的 STEM 输入手指视频可能的拼写时间间隔数据集高质量的质量的识别器管道 ISR 部分分类器解释专业 Wiki 在内的充分利用

使用手语模型引导手语注释

其他外部链接

Tags

XiaoMi-AI