我们描述了为对话式 AI 用例创建和提供自定义语音的方法。更具体地说,我们为数字爱因斯坦角色提供语音,以便在数字对话体验中实现人机交互。为了创建适合上下文的语音,我们首先设计一个语音角色,然后制作与所需语音属性相对应的录音。然后我们对语音进行建模。我们的解决方案利用 Fastspeech 2 从音素进行对数缩放梅尔频谱图预测,并使用 Parallel WaveGAN 生成波形。系统支持字符输入并在输出时提供语音波形。我们对选定的单词使用自定义词典以确保其正确发音。我们提出的云架构能够实现快速语音传输,从而可以实时与阿尔伯特·爱因斯坦的数字版本对话。索引词:人机交互、对话式人工智能、文本转语音