audiox：一个强大的新AI，将所有内容变成声音 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

audiox：一个强大的新AI，将所有内容变成声音

2025年4月15日 10:57 33 Comments

想象一个可以通过观看图像，阅读文字或观看视频来创建音乐或声音效果的AI。这正是Audiox所做的 - 既令人印象深刻又令人恐惧。 Audiox是一种新的扩散变压器模型，可以从[…] Audiox：强大的新AI中产生高质量的声音，它首先出现在AI新闻中。

来源:AI新闻

想象一个可以通过观看图像，阅读文字或观看视频来创建音乐或声音效果的AI。这正是Audiox所做的 - 既令人印象深刻又令人恐惧。

Audiox是一种新的扩散变压器模型，可以从不同类型的输入中生成高质量的声音。由香港科学技术大学（HKUST）的研究人员开发，代表了音频发电的多模式AI的重大进步。

使Audiox与众不同的是它处理许多不同类型的输入的能力。与通常专注于文本对听起来或单独听起来的模型不同，音频可以接收和处理：

music.text（描述或说明）.VIDEO（也是无声视频）.bilds。

音乐。

文本（描述或说明）。

视频（也安静的视频）。

图片。

现有的音频剪辑。

该模型已经接受了大量数据的培训，其中包括190,000张录音，其中包含相关的文本说明和600万张音乐作品，并带有详细的元数据。这使Audiox可以为各种输入创建上下文合适的声音景观。

audiox执行令人印象深刻的任务，例如：文本到听起来，您可以写出一个描述，即“钢琴在雨水落在窗户上时会播放忧郁的旋律”，并且音频基于此创造了逼真的声音。

视频到听觉：最令人印象深刻的功能之一是能够为安静的视频创建声音。想象一下，有人打网球的安静视频 - Audiox可以产生网球的逼真的声音效果，这些网球击中了球拍，观众的反应以及球员在赛道上的动作。

视频到听觉：

图像到达，向模型显示海滩的图片，它可以产生波浪，海鸥和风噪声的合适声音效果。

图像到声音 Audiox项目页面 github页面

更多信息：

Audiox 高质量的音频图像质量的变压器相关的不同的创建令人模型质量详细的文本输入图片研究人员多模式合适的视频安静的输入的 AI 现有的说明噪声的效果同类型的声音