OmniHuman-1:字节跳动的 AI 可将单张照片变成会动会说话的人

想象一下,只需拍摄一个人的照片,几秒钟内就能看到他们说话、做手势甚至表演——无需录制任何真实视频。这就是字节跳动 OmniHuman-1 的强大之处。最近走红的人工智能模型通过生成高度逼真的视频,为静态图像注入了生命,包括同步的嘴唇动作、全身手势和富有表现力的面部表情[…]OmniHuman-1:字节跳动的人工智能将一张照片变成一个会动会说话的人,首次出现在 Unite.AI 上。

来源:Unite.AI

想象一下,只需拍摄一个人的照片,几秒钟内就能看到他们说话、做手势甚至表演,而无需录制任何真实视频。这就是字节跳动 OmniHuman-1 的强大之处。最近走红的 AI 模型通过生成高度逼真的视频,为静态图像注入了生命,包括同步的嘴唇动作、全身手势和富有表现力的面部动画,所有这些都由音频片段驱动。

字节跳动的 OmniHuman-1

与主要专注于在视频中换脸的传统深度伪造技术不同,OmniHuman-1 可以将整个人物从头到脚变成动画。无论是政治家发表演讲、栩栩如生的历史人物,还是 AI 生成的虚拟人物演唱歌曲,这种模型都让我们所有人都对视频创作进行了深入思考。这项创新带来了一系列影响——既令人兴奋又令人担忧。

深度伪造技术

是什么让 OmniHuman-1 脱颖而出?

OmniHuman-1 确实是真实性和功能性的一大飞跃,这正是它走红的原因。

以下仅列举几个原因:

    不仅仅是说话的头像:大多数深度伪造和 AI 生成的视频仅限于面部动画,通常会产生僵硬或不自然的动作。 OmniHuman-1 可以对整个身体进行动画处理,捕捉自然的手势、姿势,甚至与物体的互动。令人难以置信的口型同步和细微的情感:它不仅仅是让嘴巴随机移动; AI 确保嘴唇动作、面部表情和肢体语言与输入音频相匹配,使结果栩栩如生。适应不同的图像风格:无论是高分辨率肖像、低质量快照,甚至是风格化的插图,OmniHuman-1 都能智能地适应,无论输入质量如何,都能创造出流畅、可信的动作。
不仅仅是说话的头像 AI 生成的视频 令人难以置信的口型同步和细微的情感: 适应不同的图像风格:

背后的技术(用简单的英语)

官方论文 扩散变压器模型 功能