在肖像视频生成领域中,使用单个图像来生成肖像视频已经变得越来越普遍。一种常见的方法涉及利用生成模型来增强适配器的控制生成。但是,控制信号(例如,文本,音频,参考图像,姿势,深度图等)的力量可能会有所不同。在这些情况下,由于对较强的条件的干扰,较弱的条件通常难以有效,这在平衡这些条件方面构成了挑战。在我们在肖像视频生成方面的工作中,我们确定音频信号特别弱,通常被诸如面部姿势和参考图像之类的强信号所掩盖。但是,信号较弱的直接训练通常会导致收敛困难。为了解决这个问题,我们提出了V-Express,这是一种简单的方法,可以通过渐进式训练和条件辍学操作来平衡不同的控制信号。我们的方法逐渐通过弱条件实现有效的控制,从而获得了同时考虑面部姿势,参考图像和音频的发电能力。实验结果表明,我们的方法可以有效地生成由音频控制的肖像视频。此外,还提供了一种潜在的解决方案,以同时有效地利用各种强度的条件。