摘要 随着机器学习在语音合成方面的最新发展,本研究探索了结合语言学知识来可视化和评估合成语音模型训练。如果可以在合成语音中看到和听到第一和第二共振峰(反过来,元音空间)的变化,那么这些知识可以为语音合成技术开发人员提供参考。在大型通用美式英语数据库上训练的语音合成模型被微调为新西兰英语语音,以确定是否可以看到和听到合成语音元音空间的变化。分析了微调过程中不同间隔的元音空间,以确定模型是否学习了新西兰英语元音空间。我们基于元音空间分析的研究结果表明,我们可以可视化语音合成模型如何学习其训练数据库的元音空间。感知测试证实,人类可以感知语音合成模型何时学习了其正在训练的语音数据库的特征。使用元音空间作为中间评估有助于了解哪些声音需要添加到训练数据库中,并根据语言学知识构建语音合成模型。索引术语:文本到语音合成、模型训练、可视化、元音图、语言学、机器学习