在 Amazon SageMaker AI 上训练阿塞拜疆语语言模型

Azercell Telecom LLC 是阿塞拜疆领先的电信提供商,希望在 Amazon SageMaker AI 上针对电信用例和面向客户的聊天机器人构建阿塞拜疆大语言模型 (LLM)。挑战:使基础模型 (FM) 适应形态丰富的语言,但训练数据有限,而且阿塞拜疆没有现有的高效法学硕士培训蓝图。在为期六周的合作中,Azercell 与 AWS Generative AI 创新中心合作,在 Amazon SageMaker AI 上建立了一个生产就绪框架。

来源:亚马逊云科技 _机器学习

This solution builds on open source tools including PyTorch, Hugging Face Transformers, and Liger Kernels.作者还要感谢 Aiham Taleb、Arefeh Ghahvechi、Manav Choudhary、Rohit Thekkanal、Daz Akbarov、Jamila Jamilova、Ross Povelikin、Almas Moldakanov、Christelle Xu 和 Ivan Khvostishkov 为使该项目成为可能所做的贡献。

阿塞拜疆领先的电信提供商 Azercell Telecom LLC 希望在 Amazon SageMaker AI 上针对电信用例和面向客户的聊天机器人构建阿塞拜疆大语言模型 (LLM)。挑战:使基础模型 (FM) 适应形态丰富的语言,但训练数据有限,而且阿塞拜疆没有现有的高效法学硕士培训蓝图。在为期六周的合作中,Azercell 与 AWS Generative AI 创新中心合作,在 Amazon SageMaker AI 上建立了一个生产就绪框架,通过在 ml.p5.48xlarge 实例上进行内核级优化,训练吞吐量提高了 23%,峰值 GPU 内存使用率降低了 58%。该框架还使用自定义标记器将每个单词的标记数提高了 2 倍,有效地将适合模型上下文窗口的阿塞拜疆语文本量增加了一倍。 If you work with low-resource or morphologically complex languages, this post walks through the approach so you can evaluate similar techniques.

解决方案概述

The framework implements three sequential stages, each producing artifacts that feed the next.

  • Stage 1: Tokenizer development builds an efficient tokenizer for Azerbaijani.我们评估了三种通过标准化指标衡量编码效率的方法(基线英语优化分词器、词汇扩展和自定义单语分词器)。 The custom monolingual tokenizer achieved the strongest results, halving the tokens per word compared to the baseline.
  • 开发阿塞拜疆分词器

    继续预训练

    Distributed training with Fully Sharded Data Parallel (FSDP)