前 5 个开源视频生成模型 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

前 5 个开源视频生成模型

2025年10月23日 12:48 33 Comments

发现可与 Veo 3 竞争的顶级开源视频生成模型，并优先考虑您的隐私和控制。

来源:KDnuggets

作者图片

# 灯光、相机...

随着 Veo 和 Sora 的推出，视频生成达到了新的高度。创作者正在进行广泛的试验，团队正在将这些工具集成到他们的营销工作流程中。然而，它有一个缺点：大多数封闭系统都会收集您的数据并应用可见或不可见的水印，将输出标记为人工智能生成。如果您重视隐私、控制和设备上的工作流程，开源模型是您的最佳选择，并且现在有一些模型可以与 Veo 的结果相媲美。

维奥索拉

在本文中，我们将回顾排名前五的视频生成模型，提供技术知识和演示视频，帮助您评估他们的视频生成能力。每个模型都可以在 Hugging Face 上使用，并且可以通过 ComfyUI 或您喜欢的桌面 AI 应用程序在本地运行。

拥抱脸 ComfyUI

# 1.万2.2 A14B

Wan 2.2 通过专家混合 (MoE) 架构升级了其扩散骨干网，该架构将跨时间步长的去噪分解给专门的专家，从而在不造成计算损失的情况下提高有效容量。该团队还策划了美学标签（例如灯光、构图、对比度、色调），使“电影”看起来更可控。与 Wan 2.1 相比，训练大幅扩展（+65.6% 图像，+83.2% 视频），改善了运动、语义和美学。

万2.2

Wan 2.2 报告了开放式和封闭式系统中的顶级性能。您可以在 Hugging Face 上探索文本转视频和图像转视频 A14B 存储库：Wan-AI/Wan2.2-T2V-A14B 和 Wan-AI/Wan2.2-I2V-A14B

万-AI/Wan2.2-T2V-A14B 万-AI/Wan2.2-I2V-A14B 视频

# 2.混元视频

混元视频

开源生态系统包括代码、权重、单 GPU 和多 GPU 推理 (xDiT)、FP8 权重、Diffusers 和 ComfyUI 集成、Gradio 演示以及 Penguin Video Benchmark。

扩散器 渐变

# 3.麻糬 1

麻糬 1

# 4.LTX 视频

LTX-视频

# 5.CogVideoX-5B

CogVideoX-5B 文档

# 选择视频生成模型

阿比德·阿里·阿万 @1abidaliawan

ComfyUI 2.2 创作者混元 Wan 人工智能可见的提高模型技术知识不可见的 Wan2.2 不可见视频团队封闭系统闭式系统 A14B 扩散器损失的灯光对比度专门的应用程序开源 Veo 生成美学生态系统系统有效容量广泛的骨干网 AI 架构开放式