cntxt AI启动Munsit:有史以来最准确的阿拉伯语音识别系统

在阿拉伯语人工智能的定义时刻,Cntxt AI揭开了Munsit,这是一种下一代阿拉伯语语音识别模型,不仅是有史以来为阿拉伯语创建的最准确的,而且果断地超过了像OpenAI,Meta,Meta,Microsoft,Microsoft,Microsoft和Elevenlabs这样的全球巨头。在阿联酋开发,并为阿拉伯语量身定制,从[…] CNTXT AI启动Munsit:有史以来最准确的阿拉伯语音识别系统首先出现在Unite.ai上。

来源:Unite.AI

在阿拉伯语人工智能的定义时刻,Cntxt AI揭开了Munsit,这是一种下一代阿拉伯语语音识别模型,不仅是有史以来为阿拉伯语创建的最准确的,而且果断地超过了像OpenAI,Meta,Meta,Microsoft,Microsoft,Microsoft和Elevenlabs这样的全球巨头。 Munsit在阿联酋开发并从地面上量身定制为阿拉伯语,代表了CNTXT所谓的“主权AI”的强大一步,该地区建于该地区,该地区为该地区,但具有全球竞争力。

cntxt ai Munsit

这项成就的科学基础是在团队新发表的论文中阐述的,“通过大规模弱监督的学习来推进阿拉伯语语音识别”,该论文介绍了一种可扩展的,可扩展的数据效率培训方法,以解决长期存在的标签阿拉伯语语音数据的稀缺性。该方法(受到监督的学习)使团队能够构建一个系统,该系统为现代标准阿拉伯语(MSA)和25个以上的区域方言设定了新的转录质量标准。

通过大规模弱监督的学习来推进阿拉伯语音识别

克服阿拉伯语ASR中的数据干旱

阿拉伯语尽管是全球口语最广泛的语言之一,并且是联合国的官方语言,但长期以来一直被认为是言语识别领域的低资源语言。这既源于其形态的复杂性和缺乏大型,多样,标记的语音数据集。与英语相比,它从无数小时的手动转录音频数据中受益,阿拉伯语的方言丰富性和零散的数字形象在构建强大的自动语音识别(ASR)系统方面面临着重大挑战。

形态复杂性

动力MUNSIT:构象体架构

连接派时间分类(CTC)

主导基准

一个阿拉伯语音未来的平台AI