获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
大型语言模型 (LLM) 在各个领域都变得至关重要,这强调了在代表性不足的语言中建立高质量模型的紧迫性。本研究探讨了低资源语言面临的独特挑战,例如数据稀缺、模型选择、评估和计算限制,特别关注土耳其语。我们进行了深入分析,以评估训练策略、模型选择和数据可用性对为代表性不足的语言设计的 LLM 性能的影响。我们的方法包括两种方法:(i) 调整最初用英语预训练的现有 LLM 以理解土耳其语;(ii) 使用土耳其语预训练数据从头开始开发模型,这两种方法均辅以在新的土耳其语指令调整数据集上进行监督微调,旨在增强推理能力。通过创建新的土耳其语 LLM 排行榜来评估这些方法的相对性能,其中包含评估不同推理和知识技能的基准。此外,我们在预训练和微调期间对数据和模型扩展进行了实验,同时强调跨语言知识迁移的能力,并解决在不同语言上微调时遇到的灾难性遗忘的挑战。我们的目标是提供在低资源语言环境中推进 LLM 框架的详细指南,从而使自然语言处理 (NLP) 的好处在全球范围内更容易获得。