编解码器关键词检索结果

神经编解码器语言模型 - VALL-E 可以从三秒的录音中重现声音

A neural codec language model - VALL-E can reproduce a voice from a three-second audio recording

文本转语音模型通常需要更长的训练样本,而 VALL-E 只需几秒钟就能创造出听起来更自然的合成语音。

jpeg ai模糊了真实和合成之间的界线

JPEG AI Blurs the Line Between Real and Synthetic

在今年2月,JPEG AI国际标准发布了几年的研究,旨在使用机器学习技术生产较小,更容易传播和可传播的图像编解码器,而不会损失感知质量。这个降临的原因很少的原因是,核心PDF […] jpeg ai后jpeg ai模糊了真实和合成之间的界限,首先出现在unite.ai上。

ImmerseDiffusion:生成空间音频潜在扩散模型

ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model

我们引入了 ImmerseDiffusion,这是一种端到端生成音频模型,可根据声音对象的空间、时间和环境条件产生 3D 沉浸式音景。ImmerseDiffusion 经过训练可生成一阶环绕声 (FOA) 音频,这是一种包含四个通道的传统空间音频格式,可以渲染为多通道空间输出。所提出的生成系统由将 FOA 音频映射到潜在成分的空间音频编解码器、基于各种用户输入类型训练的潜在扩散模型(即文本提示、空间……

弥合生成视频中的“空间差距”

Bridging the ‘Space Between’ in Generative Video

来自中国的一项新研究提供了一种改进的方法来插入两个时间上相距较远的视频帧之间的间隙——这是当前生成 AI 视频以及视频编解码器压缩在真实性方面的竞争中面临的最关键挑战之一。在下面的示例视频中,我们在最左边的列中看到一个“开始”[…] 这篇文章《弥合生成视频中的“空间”》首先出现在 Unite.AI 上。

迪士尼研究提供改进的基于 AI 的图像压缩 – 但可能会产生幻觉细节

Disney Research Offers Improved AI-Based Image Compression – But It May Hallucinate Details

迪士尼的研究部门正在提供一种新的图像压缩方法,利用开源稳定扩散 V1.2 模型以比竞争方法更低的比特率生成更逼真的图像。新方法(尽管与 JPEG 和 AV1 等传统编解码器相比,其复杂性有所增加,但仍被定义为“编解码器”)可以在任何 […] 上操作。文章迪士尼研究提供改进的基于 AI 的图像压缩——但它可能会产生幻觉细节首先出现在 Unite.AI 上。