详细内容或原文请订阅后点击阅览
新人工智能读取嘴唇
新的基于人工智能的软件称为WAS(Watch、AttendandSpell),是牛津大学与DeepMind 合作开发的。
来源:Robogeek新闻频道(关于机器人技术的俄罗斯与世界新闻)新的基于人工智能的软件称为WAS(Watch、AttendandSpell),是牛津大学与DeepMind 合作开发的。
AI 系统使用计算机视觉和机器学习技术,使用来自六个不同电视节目的 5,000 多个小时的电视片段的数据集来学习读唇语。这些视频片段包含超过 11,8000 个句子和 17,500 个单词的词汇。
研究人员比较了机器和人类专家根据说话者嘴唇的动作识别语音的能力。他们发现该软件更加准确。该人的口语发音正确率为 12%,而 WAS 软件识别出的单词中有 50% 没有错误。该机器的误差很小,包括缺少英语单词末尾的字母“s”。
该软件有多种用途,包括帮助听力障碍人士了解周围的世界。
还有很多其他用途。例如,在嘈杂的环境中通过电话听写指令、为档案无声电影配音、总体上提高自动语音识别的效率。