该研究包括五个封闭的模型(OpenAI的GPT 3.5和4,Google的Gemini 1.5 Pro,Yandexgpt 2和3)和两个开放型模型(Meta的Llama 2和Aya,是Cohere的大型多语言模型)。实验是在与不同任务相对应的六个数据集上进行的 - 问题回答,因果推理,中学数学问题,机器翻译和拼写校正。三个数据集是专门为这项研究准备的。正如预期的那样,哈萨克(Hazakh)任务上LLM的质量低于平行英语任务。GPT-4显示出最佳的结果,其次是双子座和AYA。通常,LLM在分类任务上的表现更好,例如回答多项选择问题,并与语言生成任务(例如拼写校正)斗争。因此,在线翻译服务(例如Google Translate)仍然是在哈萨克语和英语以及哈萨克语和俄罗斯之间翻译的更可靠的选择。我们预计更多了解哈萨克的LLM的出现,评估的方法和数据集变得至关重要。
主要关键词