详细内容或原文请订阅后点击阅览
audiox:一个强大的新AI,将所有内容变成声音
想象一个可以通过观看图像,阅读文字或观看视频来创建音乐或声音效果的AI。这正是Audiox所做的 - 既令人印象深刻又令人恐惧。 Audiox是一种新的扩散变压器模型,可以从[…] Audiox:强大的新AI中产生高质量的声音,它首先出现在AI新闻中。
来源:AI新闻想象一个可以通过观看图像,阅读文字或观看视频来创建音乐或声音效果的AI。这正是Audiox所做的 - 既令人印象深刻又令人恐惧。
Audiox是一种新的扩散变压器模型,可以从不同类型的输入中生成高质量的声音。由香港科学技术大学(HKUST)的研究人员开发,代表了音频发电的多模式AI的重大进步。
使Audiox与众不同的是它处理许多不同类型的输入的能力。与通常专注于文本对听起来或单独听起来的模型不同,音频可以接收和处理:
- music.text(描述或说明).VIDEO(也是无声视频).bilds。
该模型已经接受了大量数据的培训,其中包括190,000张录音,其中包含相关的文本说明和600万张音乐作品,并带有详细的元数据。这使Audiox可以为各种输入创建上下文合适的声音景观。
audiox执行令人印象深刻的任务,例如:文本到听起来,您可以写出一个描述,即“钢琴在雨水落在窗户上时会播放忧郁的旋律”,并且音频基于此创造了逼真的声音。
视频到听觉:最令人印象深刻的功能之一是能够为安静的视频创建声音。想象一下,有人打网球的安静视频 - Audiox可以产生网球的逼真的声音效果,这些网球击中了球拍,观众的反应以及球员在赛道上的动作。
视频到听觉:图像到达,向模型显示海滩的图片,它可以产生波浪,海鸥和风噪声的合适声音效果。
图像到声音 Audiox项目页面 github页面更多信息: