我们研究了从舌头的超声图像和嘴唇的视频图像中进行多说话人语音识别。我们在模态语音的图像数据上训练我们的系统,并在两种说话模式的匹配测试集上进行评估:无声语音和模态语音。我们观察到,从图像数据中进行的无声语音识别表现不如模态语音识别,这可能是因为训练和测试之间的说话模式不匹配。我们使用解决领域不匹配的技术来提高无声语音识别性能,例如 fMLLR 和无监督模型自适应。我们还从话语持续时间和发音空间大小方面分析了无声语音和模态语音的特性。为了估计发音空间,我们计算从超声舌头图像中提取的舌头样条的凸包。总体而言,我们观察到无声语音的持续时间比模态语音的持续时间长,并且无声语音比模态语音覆盖的发音空间小。尽管这两个特性在各种说话模式下都具有统计显著性,但它们与语音识别的单词错误率并不直接相关。索引词:无声语音界面、无声语音、超声舌成像、视频唇成像、发音语音识别