按照掩蔽语言建模 (MLM) 目标进行训练的多语言预训练语言模型 (multiPLM) 通常用于双语文本挖掘等跨语言任务。然而,这些模型的性能对于低资源语言 (LRL) 仍然不是最优的。为了改进给定 multiPLM 的语言表示,可以进一步对其进行预训练。这称为持续预训练。先前的研究表明,使用 MLM 进行持续预训练,随后使用翻译语言建模 (TLM) 进行预训练可以改进 multiPLM 的跨语言表示。然而,在掩蔽期间,MLM 和 TLM 都会给予输入序列中的所有标记相同的权重,而不管标记的语言属性如何。在本文中,我们引入了一种新颖的掩蔽策略,即语言实体掩蔽 (LEM),用于持续预训练步骤,以进一步改进现有 multiPLM 的跨语言表示。与 MLM 和 TLM 相比,LEM 将掩码限制在语言实体类型名词、动词和命名实体上,这些实体在句子中占据更重要的地位。其次,我们将掩码限制在语言实体范围内的单个标记上,从而保留更多上下文,而在 MLM 和 TLM 中,标记是随机掩码的。我们使用三个下游任务评估 LEM 的有效性,即双语挖掘、并行数据管理和代码混合情感分析,使用三种低资源语言对英语-僧伽罗语、英语-泰米尔语和僧伽罗语-泰米尔语。实验结果表明,在所有三个任务中,使用 LEM 持续预训练的多 PLM 优于使用 MLM+TLM 持续预训练的多 PLM。
大型语言模型 (LLM) 在各个领域都变得至关重要,这强调了在代表性不足的语言中建立高质量模型的紧迫性。本研究探讨了低资源语言面临的独特挑战,例如数据稀缺、模型选择、评估和计算限制,特别关注土耳其语。我们进行了深入分析,以评估训练策略、模型选择和数据可用性对为代表性不足的语言设计的 LLM 性能的影响。我们的方法包括两种方法:(i) 调整最初用英语预训练的现有 LLM 以理解土耳其语;(ii) 使用土耳其语预训练数据从头开始开发模型,这两种方法均辅以在新的土耳其语指令调整数据集上进行监督微调,旨在增强推理能力。通过创建新的土耳其语 LLM 排行榜来评估这些方法的相对性能,其中包含评估不同推理和知识技能的基准。此外,我们在预训练和微调期间对数据和模型扩展进行了实验,同时强调跨语言知识迁移的能力,并解决在不同语言上微调时遇到的灾难性遗忘的挑战。我们的目标是提供在低资源语言环境中推进 LLM 框架的详细指南,从而使自然语言处理 (NLP) 的好处在全球范围内更容易获得。
尽管具有英语主导性的大语言模型的进步,但低资源语言仍需要进一步的开发才能增强全球可访问性。代表这些语言的主要方法是单语和多语言预读。单语言预告片由于硬件要求而昂贵,而且多语言模型在语言中通常具有不平衡的性能。这项研究通过调整大型语言模型(接受英语培训)来探讨一种替代性,从而探讨了低资源语言。我们评估各种策略,包括持续的培训,教学微调,特定的微调和词汇扩展。结果表明,持续的训练可以证明语言理解,如困惑得分所反映,而特定于任务的调整通常会增强下游任务的性能。但是,扩展词汇并没有显示出实质性的好处。此外,虽然较大的模型通过几次调整来改善任务性能,但在适应时,多语言模型的形式比单语的同行更糟。