大型语言模型 (LLM) 在各个领域都变得至关重要,这强调了在代表性不足的语言中建立高质量模型的紧迫性。本研究探讨了低资源语言面临的独特挑战,例如数据稀缺、模型选择、评估和计算限制,特别关注土耳其语。我们进行了深入分析,以评估训练策略、模型选择和数据可用性对为代表性不足的语言设计的 LLM 性能的影响。我们的方法包括两种方法:(i) 调整最初用英语预训练的现有 LLM 以理解土耳其语;(ii) 使用土耳其语预训练数据从头开始开发模型,这两种方法均辅以在新的土耳其语指令调整数据集上进行监督微调,旨在增强推理能力。通过创建新的土耳其语 LLM 排行榜来评估这些方法的相对性能,其中包含评估不同推理和知识技能的基准。此外,我们在预训练和微调期间对数据和模型扩展进行了实验,同时强调跨语言知识迁移的能力,并解决在不同语言上微调时遇到的灾难性遗忘的挑战。我们的目标是提供在低资源语言环境中推进 LLM 框架的详细指南,从而使自然语言处理 (NLP) 的好处在全球范围内更容易获得。
我们想邀请任何有兴趣的高中或一群高中生组成一支团队并加入这项比赛。https://my.firstinspires.org/accountmanager/account/register fikretYüksel基金会:FikretYüksel基金会,是一家美国的家庭基金会,主要在土耳其运作,主要在土耳其运作,以改善土耳其青年的教育。该基金会通过在土耳其组织第一场机器人比赛锦标赛以及在土耳其的支持团队来执行其任务。虽然基金会仅在土耳其内的财务支持团队中,但还有许多其他资源可用于土耳其以外的团队,例如First的新团队增长赠款(http://bit.ly/30k49wl),该申请应在11月1日之前到期。尽管基金会并非直接在其他国家的财务支持团队上,但它邀请并鼓励来自各地的团队组成首个机器人竞赛团队,并参加世界各地的比赛,尤其是在土耳其。从该计划中获得的经验是巨大的,此外,从旅行中获得的经验,包括您的团队,以及在这里您会遇到并认识的土耳其学生,这是有价值的。首先:首先(f或i nspiration和s cience and t Echnology的生态认知)是一家美国的公共慈善机构,在全球四个不同级别上开发和组织机器人技术竞赛。(第一个乐高®联赛大三(6-10岁)第一乐高®联赛(9-16岁)第一技术挑战赛(7 - 12年级)和第一机器人竞赛(高中)。https://www.firstinspires.org“首先不只是机器人。机器人是学生学习重要生活技能的工具。孩子们常常不知道该计划或自己的期望。即使在第一个赛季之后,他们就离开了,充满信心,并以某种感觉可以创造自己的未来。” 第一创始人-Dean Kamen