摘要该扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模可容纳,以扩展其对视觉数据生成的适用性。首先,我们确定了大多数基于MAMBA的视力方法的关键监督,即缺乏对Mamba扫描方案中空间连续性的考虑。Secondly, build- ing upon this insight, we introduce Zigzag Mamba, a simple, plug-and- play, minimal-parameter burden, DiT style solution, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines, also this heteroge- neous layerwise scan enables zero memory and speed burden when we consider more scan paths.最后,我们将Zigzag Mamba与随机插值框架整合在一起,以研究大分辨率视觉数据集上该模型的可扩展性,例如FaceShQ 1024×1024和UCF101,Multimopal-Celeba-HQ,以及MS Coco 256×256。
主要关键词