将新的开源代码文本滑到语音模型 XiaoMi-AI 科研信息收集

DIA是由两个人在短短三个月内开发的开源代码文本对数（TTS）模型。该模型以非常自然和表现力的语音生成对话，并能够在单一通讯中进行整个对话，这与传统的TTS模型不同。用户可以通过提供参考粘合剂示例及其转录来模仿特定的投票。该功能允许DIA-1.6B用于多种应用，包括语音综合和叙事的适应。功能dialog生成和高级音频控制参考声音和转录：为了使用语音克隆功能，用户需要指定声音豁免以及口语内容的书面版本，生成内容，生成内容，生成内容，生成口语，生成内容，生成内容，生成口语。有效地在单一过程中创建整个对话。该模型目前仅支持英语，并且可以产生具有不同阴影和情感表达方式的声音。更多信息：GitHub存储库：详细信息和源代码可在Github上找到：搭扣：在拥抱面上也列出了该模型，该模型允许对技术的简单分布式使用：拥抱面部模型。