数据机器 #247

新的开放式混合专家模型。Jamba SSM-MoE。Qwen1.5-MoE-A2.7B。DBRX 132B MoE。frankenMoEs。AI Agentic 工作流。1 位 ML 模型。OpenDevin。AgentStudio。

来源:数据机器

新一代开放式混合专家 (MoE) 模型。为了击败 AI 巨头的封闭式 AI 模型,许多初创公司和研究机构已开始发布基于开放 MoE 的模型。这些基于 MoE 的新一代模型引入了许多巧妙的架构技巧,并寻求平衡训练成本效率、输出质量、推理性能等。有关 MoE 的出色介绍,请查看 Hugging Face 团队的这篇长文:专家混合解释

新一代开放式混合专家 (MoE) 模型。 为了击败 AI 巨头的封闭式 AI 模型,许多初创公司和研究机构已开始发布基于开放 MoE 的模型。这些基于 MoE 的新一代模型引入了许多巧妙的架构技巧,并寻求平衡训练成本效率、输出质量、推理性能等。有关 MoE 的出色介绍,请查看 Hugging Face 团队的这篇长文: 专家混合解释

我们开始看到几个基于 MoE 的开放模型实现了接近 SOTA 或 SOTA 的性能,例如与 OpenAI GPT-4 和 Google Gemini 1.5 Pro 相比。这很棒!以下是过去十天推出的四个基于 MoE 的开放、强大的模型的简要总结。

AI21Labs Jamba。Jamba 是一个建立在 SSM-Transformer MoE 架构之上的模型。这里的创新是通过混合交错 Transformer 和 SSM 层来构建模型。Jamba 旨在综合解决 Transformer 和 SSM 架构的局限性和优势;1) 高质量输出,2) 高吞吐量和 2) 低内存要求。在此处阅读更多信息:介绍 Jamba。另请查看有关如何微调 Jamba 的 iPynb。

AI21Labs Jamba 介绍 Jamba 。另请查看 关于如何微调 Jamba 的 iPynb 阿里巴巴 Qwen1.5-MoE-A2.7B Qwen1.5-MoE:使用 1/3 激活参数匹配 7B 模型性能 MetaAI BTX 方法 Branch-Train-MiX:将专家 LLM 混合成专家混合 LLM Databricks DBRX 132B MoE