大型语言模型的 MOE 和 MOA

向专家小组寻求建议图片由作者提供(AI 生成 leonardo.ai)大型语言模型 (LLM) 无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算密集型模型一直在狂热地整合来自音频和视频库的多模态数据,并且数月来一直在使用数万个 Nvidia GPU 来训练最先进的 (SOTA) 模型。所有这些都让我们怀疑这种指数级增长是否能持续下去。这些 LLM 面临的挑战很多,但让我们在这里探讨一些。成本和可扩展性:较大的模型可能需要花费数千万美元来训练和服务,成为日常应用程序采用的障碍。 (参见 GPT-4 的训练成本)训练数据饱和:公开可用的数据集很快就会耗尽,可能需要依赖缓慢生成的用户内容。只有拥有稳定新内容来源的公司和机构才能产生改进。幻觉:生成虚假和未经证实的信息的模型将成为一种威慑,因为用户希望在用于敏感应用程序之前得到权威来源的验证。探索未知:LLM 现在被用于超出其原始意图的应用程序。例如,LLM 在 g 方面表现出了很强的能力

来源:走向数据科学

大型语言模型的 MOE 和 MOA

大型语言模型的 MOE 和 MOA

大型语言模型的 MOE 和 MOA

向专家小组寻求建议

作者提供的图片(由 AI 生成的 leonardo.ai)
作者提供的图片(由 AI 生成的 leonardo.ai)

大型语言模型 (LLM) 无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算饥渴的模型一直在狂热地整合来自音频和视频库的多模态数据,并且数月来一直在使用数万个 Nvidia GPU 来训练最先进的 (SOTA) 模型。所有这些都让我们怀疑这种指数级增长是否能持续下去。

数万

这些 LLM 面临的挑战很多,但让我们在这里调查一些。

    成本和可扩展性:更大的模型可能需要数千万美元的训练和服务成本,成为日常应用程序采用的障碍。(参见 GPT-4 的培训成本)训练数据饱和:公开可用的数据集很快就会耗尽,可能需要依赖缓慢生成的用户内容。只有拥有稳定新内容来源的公司和机构才能产生改进。幻觉:生成虚假和未经证实的信息的模型将成为一种威慑,用户希望在用于敏感应用程序之前得到权威来源的验证。探索未知:LLM 现在被用于超出其初衷的应用程序。例如,LLM 在游戏、科学发现和气候建模方面表现出了很强的能力。我们需要新的方法来解决这些复杂的情况。
  • 成本和可扩展性:较大的模型可能需要花费数千万美元进行训练和服务,这成为日常应用程序采用的障碍。(参见 GPT-4 的培训成本)
  • 成本和可扩展性