本文介绍了乌尔都语自动语音识别(ASR)模型的全面评估。我们使用单词错误率(WER)分析了三个ASR模型家族的性能:耳语,MMS和无缝M4T,以及对最常见的错误单词和错误类型(包括插入,删除和下限)的详细检查。我们的分析是使用两种类型的数据集进行的,请阅读语音和文章。值得注意的是,我们提供了第一个用于基准乌尔都语ASR模型的对话性语音数据集。我们发现,无缝的大型在读取的语音数据集上的表现优于其他ASR模型,而在对话的语音数据集中,Whisper-Large的表现最佳。此外,这种评估强调了仅使用定量指标来评估乌尔都语(例如乌尔都语)的ASR模型的复杂性,并提出了对强大的乌尔都语文本正常ization系统的需求。我们的发现为乌尔都语等低资源语言开发强大的ASR系统提供了有价值的见解。