语音不仅仅是单词:语音到文本翻译系统是否利用韵律?

这篇论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。口语的韵律,包括重音、语调和节奏等特征,会显著影响底层语义,从而也会影响其文本翻译。尽管如此,韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是,端到端 (E2E) 系统被认为非常适合韵律感知翻译,因为它们在做出翻译决策时可以直接访问语音信号,但……

来源:Apple机器学习研究

本论文被 EMNLP 2024 的第九届机器翻译会议 (WMT24) 接受。

口语的韵律,包括重音、语调和节奏等特征,会显著影响底层语义,因此也会影响其文本翻译。尽管如此,韵律很少在语音到文本翻译 (S2TT) 系统的背景下进行研究。特别是,端到端 (E2E) 系统被认为非常适合韵律感知翻译,因为它们在做出翻译决策时可以直接访问语音信号,但对于这在实践中是否成功的理解仍然有限。一个主要的挑战是难以评估翻译中的韵律意识。为了应对这一挑战,我们引入了一种评估方法和一个重点基准(名为 ContraProSt),旨在捕捉广泛的韵律现象。我们的方法使用大型语言模型和可控的文本到语音 (TTS) 来生成对比示例。通过将英语语音翻译成德语、西班牙语和日语的实验,我们发现:(a)S2TT 模型具有一些韵律的内部表示,但韵律信号通常不足以影响翻译;(b)E2E 系统的表现优于语音识别和文本翻译系统的级联,证实了它们在这方面的理论优势;(c)某些级联系统也会在翻译中捕获韵律信息,但程度较小,这取决于成绩单表面形式的细节。