将新的开源代码文本滑到语音模型

DIA是由两个人在短短三个月内开发的开源代码文本对数(TTS)模型。该模型以非常自然和表现力的语音生成对话,并能够在单一通讯中进行整个对话,这与传统的TTS模型不同。用户可以通过提供带有转录的参考示例来模仿特定的声音。 […] DIA帖子首次出现在AI新闻上的语音模型的新开源代码。

来源:AI新闻
DIA是由两个人在短短三个月内开发的开源代码文本对数(TTS)模型。该模型以非常自然和表现力的语音生成对话,并能够在单一通讯中进行整个对话,这与传统的TTS模型不同。用户可以通过提供参考粘合剂示例及其转录来模仿特定的投票。该功能允许DIA-1.6B用于多种应用,包括语音综合和叙事的适应。功能dialog生成和高级音频控制参考声音和转录:为了使用语音克隆功能,用户需要指定声音豁免以及口语内容的书面版本,生成内容,生成内容,生成内容,生成口语,生成内容,生成内容,生成口语。有效地在单一过程中创建整个对话。该模型目前仅支持英语,并且可以产生具有不同阴影和情感表达方式的声音。更多信息:GitHub存储库:详细信息和源代码可在Github上找到:搭扣:在拥抱面上也列出了该模型,该模型允许对技术的简单分布式使用:拥抱面部模型。

功能 - 对话生成和高级音频控件

对话生成 高级音频检查 参考声音和转录 语音克隆

支持非语言交流,例如:

  • 烤和咳嗽。
  • harkling和叹息。
  • 歌曲和妈妈。