本文旨在通过研究两个最先进的生成模型(扩散模型和变压器)的适应来弥合这一差距,以在哈萨克州进行文本生成。扩散模型(例如denoising扩散概率模型)在英语的高质量和多样化的文本生成中显示出令人鼓舞的结果[2]。这项研究为哈萨克语和土耳其语的自然语言处理领域做出了宝贵的贡献,为确定语法类别提供了工具。它的优势在于使用机器学习算法和广泛的数据集,这些算法与语言处理的复杂性以及算法适用性的潜在局限性相平衡[3]。同样,在下游任务上进行了微调的经过验证的变压器在各种NLP基准测试中占主导地位[4]。尽管在释义数据集上进行了一些工作[5]。该研究重点介绍了基于样本的机器翻译的基本方面:确定句子之间的相似程度。这涉及将输入句子与数据库中的相应示例对齐,选择该句子的片段,然后对其进行调整或释义以产生预期的翻译[6]。所审查的文章介绍了搜索系统中信息检索技术的新的语言和算法解决方案的开发,考虑到语法和语义的元素,包括turkic文本[7]。该文档提供了总结哈萨克文文本的方法的详细描述[8],这些研究并不能解决我们解决的问题。此外,还有一些努力在哈萨克语[9]中定义语义上的单词[9],以及使用生成的预先训练的预先训练的变压器对哈萨克语文本生成的一些初步工作,THR研究涉及对哈萨克语的文本生成模型的经验评估,其特征在于其有限的资源和复杂的形态[10]。研究研究了哈萨克语的语法特征[11]。然而,这些作品都没有全面解决哈萨克(Hazakh)的文本发电挑战,这是一种低资源,形态上丰富的突厥语。
本文提供了有关使用Artifi Cial Intelligence Technologies和计算语言学方法的质量数字化背景下撰写哈萨克语语言的现代问题的信息。基于西里尔字母的哈萨克语当前字母的不正确性证明与其中包含西里尔字母有关,表示未包含在其声音结构中的音素。通过取代错误的字母来改革哈萨克的著作的必要性得到证实。错误和矛盾在基于拉丁字母的哈萨克字母的批准版本中显示,以及提出的字母作为替代批准的字母,其中重复了一些以前的错误。在这两种情况下,都没有对哈萨克语的声音系统进行分析和澄清,这是任何字母的基础。在这项研究中,为了澄清哈萨克语的音响系统,进行了实验,以确定哈萨克语声音的发音和声学特征,并在许多自然语言中使用的计算机程序。在表达分析中,特别注意元音,这引起了哈萨克的信件的各种矛盾。建议根据四个二进制特征使用元音的新分类,而不是根据三个二进制特征的传统分类。声学分析使用了共赋剂分析方法,该方法旨在识别频谱图中的某些共振体。实体。定量,联甲量对应于语音频谱中的最大值,并且通常以水平频段作为频谱图出现。在确定哈萨克语的声音系统的组成和分类效果:第一个基于拉丁字母:第一个基于土耳其字母基于图标记;第二个是基于使用Digraphs的英语字母。第二个选择方法可以解决使用Digraphs时出现的问题的方法。总而言之,提供了有关哈萨克斯坦正在进行和正在进行的工作的信息,该信息基于对哈萨克语的智能系统的创建,基于艺术智能和计算语言学的方法和技术,这些方法和计算语言学的结果是在来源列表中所反映的结果。