OmniHuman-1：字节跳动的 AI 可将单张照片变成会动会说话的人 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

OmniHuman-1：字节跳动的 AI 可将单张照片变成会动会说话的人

2025年2月10日 16:03 33 Comments

想象一下，只需拍摄一个人的照片，几秒钟内就能看到他们说话、做手势甚至表演——无需录制任何真实视频。这就是字节跳动 OmniHuman-1 的强大之处。最近走红的人工智能模型通过生成高度逼真的视频，为静态图像注入了生命，包括同步的嘴唇动作、全身手势和富有表现力的面部表情[…]OmniHuman-1：字节跳动的人工智能将一张照片变成一个会动会说话的人，首次出现在 Unite.AI 上。

来源:Unite.AI

想象一下，只需拍摄一个人的照片，几秒钟内就能看到他们说话、做手势甚至表演，而无需录制任何真实视频。这就是字节跳动 OmniHuman-1 的强大之处。最近走红的 AI 模型通过生成高度逼真的视频，为静态图像注入了生命，包括同步的嘴唇动作、全身手势和富有表现力的面部动画，所有这些都由音频片段驱动。

字节跳动的 OmniHuman-1

与主要专注于在视频中换脸的传统深度伪造技术不同，OmniHuman-1 可以将整个人物从头到脚变成动画。无论是政治家发表演讲、栩栩如生的历史人物，还是 AI 生成的虚拟人物演唱歌曲，这种模型都让我们所有人都对视频创作进行了深入思考。这项创新带来了一系列影响——既令人兴奋又令人担忧。

深度伪造技术

是什么让 OmniHuman-1 脱颖而出？

OmniHuman-1 确实是真实性和功能性的一大飞跃，这正是它走红的原因。

以下仅列举几个原因：

不仅仅是说话的头像：大多数深度伪造和 AI 生成的视频仅限于面部动画，通常会产生僵硬或不自然的动作。 OmniHuman-1 可以对整个身体进行动画处理，捕捉自然的手势、姿势，甚至与物体的互动。令人难以置信的口型同步和细微的情感：它不仅仅是让嘴巴随机移动； AI 确保嘴唇动作、面部表情和肢体语言与输入音频相匹配，使结果栩栩如生。适应不同的图像风格：无论是高分辨率肖像、低质量快照，甚至是风格化的插图，OmniHuman-1 都能智能地适应，无论输入质量如何，都能创造出流畅、可信的动作。 不仅仅是说话的头像 AI 生成的视频 令人难以置信的口型同步和细微的情感： 适应不同的图像风格：

背后的技术（用简单的英语）

官方论文扩散变压器模型功能

一系列真实性图像高分辨率变压器动作生成适应质量模型说话动画输入 OmniHuman 面部视频口型自然的进行 AI 手势伪造