Meta 的新 AI 模型可以翻译 100 多种语言的语音

Meta 发布了一款新的 AI 模型,可以翻译 101 种不同语言的语音。它代表着向实时同声传译迈出了一步,在实时同声传译中,单词一从某人的嘴里出来就会被翻译。通常,语音翻译模型采用多步骤方法。首先,他们将语音翻译成文本。然后他们翻译……

来源:MIT Technology Review _人工智能

昆尼皮亚克大学计算机科学教授 Chetan Jaiswal(未参与这项研究)表示:“Meta 在支持各种不同功能方面做得非常出色,比如文本转语音、语音转文本,甚至自动语音识别。仅就其支持的语言数量而言,这已经是一个巨大的成就。”

研究人员在论文中表示,人工翻译仍然是翻译过程中至关重要的一部分,因为他们可以应对不同的文化背景,并确保将相同的含义从一种语言传达到另一种语言。魁北克拉瓦尔大学翻译、技术和社会加拿大研究主席 Lynne Bowker(未参与 Seamless 的研究)表示,这一步很重要。她说:“语言是文化的反映,而文化有自己的认知方式。”

她说,当涉及到医学或法律等应用时,机器翻译需要经过人工的彻底检查。否则,可能会造成误解。例如,当谷歌翻译于 2021 年 1 月用于翻译弗吉尼亚州卫生部关于 covid-19 疫苗的公共卫生信息时,它将英语中的“非强制性”翻译成了西班牙语中的“不必要”,从而改变了整个信息的含义。

使用

AI 模型在某些语言中比其他语言有更多的示例可供训练。这意味着当前的语音转语音模型可能能够将希腊语等语言翻译成英语,其中可能有很多例子,但无法从斯瓦希里语翻译成希腊语。Seamless 背后的团队旨在通过对数百万小时的不同语言的口语音频进行预训练来解决这个问题。这种预训练使它能够识别语言中的一般模式,使其更容易处理不太广泛使用的语言,因为它已经对口语应该听起来是什么样子有了一些基准。

银河系漫游指南