Microsoft释放可以创建90分钟对话

Microsoft刚刚启动了文本到数字技术VIBEVOICE-1.5B是一种开源模型,可以在多个扬声器之间生成长达90分钟的连续对话,并且只需要一个常规的图形卡即可运行它。这不仅是另一种文本对数解决方案。 Vibevoice可以创建长时间的自然对话,听起来像真实的豆荚或有声读物。 Microsoft发布的模型[…]释放了Vibevoice,该Vibevoice可以首次在AI新闻中创建90分钟的对话。

来源:AI新闻
Microsoft开发了Vibevoice-1.5B,这是一种AI模型,可以与四种不同的声音产生长达90分钟的连续对话。 Vibevoice可以通过不同的语言和流派进行表达和自然的对话。 该模型是开源代码,仅需要约7 GB的GPU内存,这使其可以使用消费者图形卡的用户使用。微软刚刚启动了文本对数字vibevoice-1.5b是一种开源代码模型,可以在几个扬声器之间产生多达90分钟的连续对话,而仅运行普通的grove卡只是一个常见的giggrocard。 Vibevoice可以创建长时间的自然对话,听起来像真实的豆荚或有声读物。该模型最多可以处理四个不同的扬声器,并让他们以听起来很自然的方式相互交谈。任何拥有简单图形卡的人都可以使用Vibevoice最令人印象深刻的是,它也许不需要超级计算机。该模型只需要大约7 GB的GPU内存,这意味着大多数拥有现代消费者图形卡的人都可以在家中驱动它。对于需要昂贵的服务器的许多其他AI型号有很大的不同。 Microsoft已根据MIT许可证提供了该模型,这意味着任何人都可以免费使用,修改和构建该技术。它可以通过GitHub和Hugging Face下载,并为任何想要进行试验的人提供。Memo视频在GitHub系统的要求上使用WAN2.2和Vibevoice创建,并且容量需要大约7 GB GPU存储器以供基本使用。 Funner on Consumer Graphics卡(例如,这是一个研究版本,主要用于实验使用和进一步开发。微软鼓励开发人员的积极协作和反馈,以进一步改善系统。更多信息:
vibevoice-1.5b github 拥抱脸 github 7 GB