摘要该扩散模型长期以来一直受到可扩展性和二次复杂性问题的困扰,尤其是在基于变压器的结构中。在这项研究中,我们旨在利用称为Mamba的状态空间模型的长序列建模可容纳,以扩展其对视觉数据生成的适用性。首先,我们确定了大多数基于MAMBA的视力方法的关键监督,即缺乏对Mamba扫描方案中空间连续性的考虑。Secondly, build- ing upon this insight, we introduce Zigzag Mamba, a simple, plug-and- play, minimal-parameter burden, DiT style solution, which outperforms Mamba-based baselines and demonstrates improved speed and memory utilization compared to transformer-based baselines, also this heteroge- neous layerwise scan enables zero memory and speed burden when we consider more scan paths.最后,我们将Zigzag Mamba与随机插值框架整合在一起,以研究大分辨率视觉数据集上该模型的可扩展性,例如FaceShQ 1024×1024和UCF101,Multimopal-Celeba-HQ,以及MS Coco 256×256。
变形金刚 - mamba2体系结构,将注意机制的优势与选择性状态空间模型无缝整合。这种杂种设计使杂种能够通过单核苷酸的分辨有效地处理长度高达131KB的DNA序列。Hybridna在从弯曲,GUE和LRB基准中策划的33个DNA了解数据集中实现了最新的性能,并在产生具有所需属性的合成顺式顺式调节元件(CRE)方面表现出了出色的能力。此外,我们表明Hybridna遵守预期的规律,并且随着模型尺度从300m到3B和7B参数,性能始终如一地提高。这些发现强调了Hybridna的多功能性及其推进DNA研究和应用的潜力,为理解和工程“生活语言”的创新铺平了道路。
摘要 — 顺序建模在离线强化学习 (RL) 中表现出色,其中决策转换器 (DT) 是最显著的代表之一,取得了显著的成功。然而,RL 轨迹具有与传统序列(例如文本或音频)不同的独特属性:(1)局部相关性,其中 RL 中的下一个状态在理论上仅由基于马尔可夫决策过程 (MDP) 的当前状态和动作决定,以及 (2) 全局相关性,其中由于轨迹的时间连续性,每个步骤的特征都与长期历史信息相关。在本文中,我们提出了一种新颖的动作序列预测器,名为 Mamba Decision Maker (MambaDM),其中 Mamba 有望成为序列建模范式的有前途的替代方案,因为它可以有效地建模多尺度依赖关系。特别是,我们介绍了一种新颖的混合器模块,它可以熟练地提取和集成输入序列的全局和局部特征,从而有效地捕捉 RL 数据集中的相互关系。大量实验表明,MambaDM 在 Atari 和 OpenAI Gym 数据集上实现了最佳性能。此外,我们通过实证研究了 MambaDM 的扩展规律,发现增加模型大小不会带来性能提升,但将 MambaDM 的数据集大小扩大 2 倍可以在 Atari 数据集上获得高达 33.7% 的得分提升。本文深入探讨了 MambaDM 在 RL 领域的序列建模能力,为未来在稳健高效的决策系统方面的进步铺平了道路。
摘要在生物学中的自然语言处理(NLP)的进步取决于模型解释复杂的生物医学文献的能力。传统模型通常在该领域的复杂和特定领域的语言中挣扎。在本文中,我们提出了Biomamba,这是一种专门为生物医学文本挖掘设计的预培训模型。Biomamba建立在Mamba的建筑上,并在生物医学文学的典型语料库中进行了预培训。我们的实证研究表明,在各种生物医学任务上,Biomamba显着优于Biobert和General Domain Mamba等模型。,对于Intance,Biomamba可实现100倍的困惑性,而Bioasq上的跨透明镜损失减少了4倍[29]测试集。我们提供了模型体系结构,预训练过程和微调技术的概述。此外,我们发布了代码和经过训练的Model 1,以促进进一步的研究。
抽象分类3D MRI图像以早期检测阿尔茨海默氏病是医学成像中的关键任务。使用卷积神经网络(CNN)和变形金刚在该领域面临重大挑战的传统方法。cnns虽然有效地捕获本地空间特征,但要与远程依赖关系挣扎,并且通常需要大量的计算资源来获得高分辨率3D数据。变形金刚在捕获全局上下文方面表现出色,但在推理时间的二次复杂性却需要大量记忆,因此对于大规模的3D MRI数据而言,它们的效率降低了。为了解决这些局限性,我们建议使用Vision Mamba(一种基于状态空间模型(SSM)的高级模型(SSM),以对3D MRI图像进行分类以检测阿尔茨海默氏病。Vision Mamba利用动态状态表示和选择性扫描算法,从而使其能够有效地捕获和保留3D卷的重要空间信息。通过基于输入特征动态调整状态过渡,Vision Mamba可以选择性保留相关信息,从而导致3D MRI数据的更准确和计算有效的处理。我们的方法结合了培训期间卷积操作的可行性质,并在推断过程中进行了有效的,经常性的处理。此体系结构不仅提高了计算效率,而且还提高了模型处理3D医学图像中长期依赖关系的能力。实验结果表明,Vision Mamba的表现优于传统的CNN和变压器模型的准确性,这使其成为使用3D MRI数据早期检测阿尔茨海默氏病的有前途的工具。
最近,具有效率的硬件感知设计的状态空间模型(SSM),即Mamba深度学习模型,已显示出长序列建模的巨大计算。同时,纯粹在SSM上建立有效和通用的视力骨干是一个吸引人的方向。,由于视觉数据的位置敏感性以及全球上下文对视觉理解的要求,代表视觉数据对SSM的挑战。在本文中,我们表明,对自我注意力的依赖无需进行视觉代表学习,并提出了带有双向Mamba块(VIM)的新的通用视觉主链,该主块(VIM)标记了带有位置嵌入的图像序列,并用Bidirectiact态态空间模型将视觉表示。Imagenet分类,可可对象检测和ADE20K
摘要 - Mamba是一种具有RNN样的状态空间模型(SSM)的架构,最近引入了以解决注意机制的二次复杂性,随后应用于视觉任务1。尽管如此,与卷积和基于注意力的模型相比,Mamba的视力表现通常令人难以置信。在本文中,我们深入研究了Mamba的本质,并从概念上得出结论,Mamba非常适合具有长期序列和自回归特征的任务。对于视觉任务,由于图像分类不与任何一个特征保持一致,因此我们假设Mamba对于此任务不是必需的;检测和细分任务也不是自动回归的,但它们遵守了长期的特征,因此我们认为仍然值得探索Mamba的这些任务潜力。为了凭经验验证我们的假设,我们通过堆叠Mamba块构建了一系列名为Mambaout的模型,同时删除其核心令牌混合器SSM。实验结果强烈支持我们的假设。具体来说,我们的Mambaout模型超过了ImageNet图像分类上的所有视觉Mamba模型,表明Mamba确实不需要执行此任务。对于检测和分割,Mambaout不能匹配最先进的视觉Mamba模型的性能,这证明了Mamba在长期的视觉任务中的潜力。
医疗保健中自然语言处理(NLP)系统的进步在语言模型的能力上解释临床注释中包含的信息信息。此过程通常需要在病史的病史中从各个时间点整合信息。但是,大多数较早的临床语言模型都经过了上下文长度的审议,仅限于大约一个临床文件。在这项研究中,我们介绍了ClinicalMamba,这是Mamba语言模型的专门版本,并在大量的纵向临床注释中预审到,以满足医疗Do-Main的独特语言特征和信息处理需求。具有130万个公元和28亿个参数的临床曼巴模型在对较长的文本长度上建模临床语言方面表现出卓越的性能,与MAMBA和其他基于Longformer和Llama的临床模型相比。经过少量学习,ClinicalMamba在速度和性能方面取得了显着的基准,在纵向临床任务中表现优于临床语言模型和诸如GPT-4(例如GPT-4)的大型语言模型。
Abstract: In brain imaging segmentation, precise tumor delineation is crucial for diagnosis and treatment planning. Traditional approaches include convolutional neural networks (CNNs), which struggle with processing sequential data, and transformer models that face limitations in maintaining computational efficiency with large-scale data. This study introduces MambaBTS: a model that synergizes the strengths of CNNs and transformers, is inspired by the Mamba architecture, and integrates cascade residual multi-scale convolutional kernels. The model employs a mixed loss function that blends dice loss with cross-entropy to refine segmentation accuracy effectively. This novel approach reduces computational complexity, enhances the receptive field, and demonstrates superior performance for accurately segmenting brain tumors in MRI images. Experiments on the MICCAI BraTS 2019 dataset show that MambaBTS achieves dice coefficients of 0.8450 for the whole tumor (WT), 0.8606 for the tumor core (TC), and 0.7796 for the enhancing tumor (ET) and outperforms existing models in terms of accuracy, computational efficiency, and parameter efficiency. These results underscore the model's potential to offer a balanced, efficient, and effective segmentation method, overcoming the constraints of existing models and promising significant improvements in clinical diagnostics and planning.