本文旨在通过研究两个最先进的生成模型(扩散模型和变压器)的适应来弥合这一差距,以在哈萨克州进行文本生成。扩散模型(例如denoising扩散概率模型)在英语的高质量和多样化的文本生成中显示出令人鼓舞的结果[2]。这项研究为哈萨克语和土耳其语的自然语言处理领域做出了宝贵的贡献,为确定语法类别提供了工具。它的优势在于使用机器学习算法和广泛的数据集,这些算法与语言处理的复杂性以及算法适用性的潜在局限性相平衡[3]。同样,在下游任务上进行了微调的经过验证的变压器在各种NLP基准测试中占主导地位[4]。尽管在释义数据集上进行了一些工作[5]。该研究重点介绍了基于样本的机器翻译的基本方面:确定句子之间的相似程度。这涉及将输入句子与数据库中的相应示例对齐,选择该句子的片段,然后对其进行调整或释义以产生预期的翻译[6]。所审查的文章介绍了搜索系统中信息检索技术的新的语言和算法解决方案的开发,考虑到语法和语义的元素,包括turkic文本[7]。该文档提供了总结哈萨克文文本的方法的详细描述[8],这些研究并不能解决我们解决的问题。此外,还有一些努力在哈萨克语[9]中定义语义上的单词[9],以及使用生成的预先训练的预先训练的变压器对哈萨克语文本生成的一些初步工作,THR研究涉及对哈萨克语的文本生成模型的经验评估,其特征在于其有限的资源和复杂的形态[10]。研究研究了哈萨克语的语法特征[11]。然而,这些作品都没有全面解决哈萨克(Hazakh)的文本发电挑战,这是一种低资源,形态上丰富的突厥语。
本文提供了有关使用Artifi Cial Intelligence Technologies和计算语言学方法的质量数字化背景下撰写哈萨克语语言的现代问题的信息。基于西里尔字母的哈萨克语当前字母的不正确性证明与其中包含西里尔字母有关,表示未包含在其声音结构中的音素。通过取代错误的字母来改革哈萨克的著作的必要性得到证实。错误和矛盾在基于拉丁字母的哈萨克字母的批准版本中显示,以及提出的字母作为替代批准的字母,其中重复了一些以前的错误。在这两种情况下,都没有对哈萨克语的声音系统进行分析和澄清,这是任何字母的基础。在这项研究中,为了澄清哈萨克语的音响系统,进行了实验,以确定哈萨克语声音的发音和声学特征,并在许多自然语言中使用的计算机程序。在表达分析中,特别注意元音,这引起了哈萨克的信件的各种矛盾。建议根据四个二进制特征使用元音的新分类,而不是根据三个二进制特征的传统分类。声学分析使用了共赋剂分析方法,该方法旨在识别频谱图中的某些共振体。实体。定量,联甲量对应于语音频谱中的最大值,并且通常以水平频段作为频谱图出现。在确定哈萨克语的声音系统的组成和分类效果:第一个基于拉丁字母:第一个基于土耳其字母基于图标记;第二个是基于使用Digraphs的英语字母。第二个选择方法可以解决使用Digraphs时出现的问题的方法。总而言之,提供了有关哈萨克斯坦正在进行和正在进行的工作的信息,该信息基于对哈萨克语的智能系统的创建,基于艺术智能和计算语言学的方法和技术,这些方法和计算语言学的结果是在来源列表中所反映的结果。
该研究包括五个封闭的模型(OpenAI的GPT 3.5和4,Google的Gemini 1.5 Pro,Yandexgpt 2和3)和两个开放型模型(Meta的Llama 2和Aya,是Cohere的大型多语言模型)。实验是在与不同任务相对应的六个数据集上进行的 - 问题回答,因果推理,中学数学问题,机器翻译和拼写校正。三个数据集是专门为这项研究准备的。正如预期的那样,哈萨克(Hazakh)任务上LLM的质量低于平行英语任务。GPT-4显示出最佳的结果,其次是双子座和AYA。通常,LLM在分类任务上的表现更好,例如回答多项选择问题,并与语言生成任务(例如拼写校正)斗争。因此,在线翻译服务(例如Google Translate)仍然是在哈萨克语和英语以及哈萨克语和俄罗斯之间翻译的更可靠的选择。我们预计更多了解哈萨克的LLM的出现,评估的方法和数据集变得至关重要。
近 年 来 , 预 训 练 语 言 模 型 已 逐 渐 成 为 自 然 语 言 处 理 领 域 的 基 座 模 型 。 相 关 实 验 现 象 表 明 , 预 训 练 语 言 模 型 能 够 自 发 地 从 预 训 练 语 料 中 学 到 一 定 的 语 言 学 知 识 、 世 界 知 识 和 常 识 知 识 , 从 而 在 知 识 密 集 型 任 务 上 获 得 出 色 的 表 现 ( AlKhamissi et al., 2022 ; Safavi and Koutra, 2021 ; Petroni et al., 2019 ) 。 然 而 , 预 训 练 语 言 模 型 中 的 知 识 隐 式 地 存 储 在 参 数 之中 , 难 以 显 式 地 对 预 训 练 语 言 模 型 中 的 知 识 进 行 分 析 和 利 用 。 同 时 , 预 训 练 语 言 模 型在 知 识 和 推 理 上 的 表 现 并 不 可 靠 , 常常 会 出 现 “ 幻 觉 ” 现 象 ( Ji et al., 2022 ) , 给 出 与 知 识 冲 突 的 预 测 结 果 。 这 些 因 素 阻 碍 了 预 训 练 语 言 模 型 提 供 可 靠 的 知 识 服 务 。 因 此 , 探 究 模 型 掌握 知 识 的 机 理 、 研 究 如 何 提 取 和 补 充 语 言 模 型 中 的 知 识 成 为 近 期 的 研 究 热点 。 本 次 讲 习 班 主 要 内 容 包 括 预 训 练 语 言 模 型 中 的 知 识 分 析 、 预 训 练 语 言 模 型 的 知 识 萃 取 、 知 识 增 强 的 预 训 练 语 言 模 型 三个 部 分 , 听 众 将 在 本 次 讲 习 班 中了 解 到 近 期 研 究 中 对 预 训 练 语 言 模 型 掌握 知 识 情 况 的 认识 、 从 预 训 练 语 言 模 型 中 提 取 符 号 知 识 的 实 现 方 案 、 利 用 外 部 知 识 增 强 模 型 弥 补 缺 陷 的 各 类 方 法 。
本卷包含 2019 年 10 月 9 日至 11 日在爱沙尼亚塔林举行的第 17 届 EFNIL 年会上的演讲。此次会议由爱沙尼亚语言学院、爱沙尼亚语言理事会、教育和研究部、塔林市政府、母语学会和欧盟委员会翻译总司 (DGT) 和 EFNIL 合作举办。在会议上提交的论文中,以不同的方式强调了“语言与经济”这一主题。本卷的第一篇文章基于会议上的主旨演讲,从一种或多种语言的经济权重的角度来理解语言的经济权重问题。本文主要从英语在世界范围内的重要性来讨论语言的经济权重问题。尽管经济效益与语言使用之间的联系的考虑构成了本书第一部分的基调,但它们与对经济(即有效和适当)语言使用及其与经济因素关系的思考相关。本书第一章中的论文讨论了如何将经济学家的观点系统地融入语言论述中,以及如何在现代欧洲社会中有效利用人力资本“语言”,以及在日益发展的语言产业领域中产生的实际影响。会议副标题中讨论的最后一个方面,即语言产业,指的是多语言互动的实际挑战,并提出了相当多的具体问题。管理多语言结构最明显的后果之一是专业翻译和口译的必要性,本书第二章将讨论这个问题。解决这些问题的问题——例如在欧盟机构中——无疑具有经济方面;这样的解决方案提供了经济机会,是成本效益计算的对象。下一部分是关于在多语言环境中掌握和使用多种语言的好处(以及某些语言技能的局限性)。文章举例说明了多种语言是否以及在何处使用有效且具有经济优势。在关于简单语言作为另一种经济交流方式的论文中,讨论了近年来越来越明显的一个方面。使用简单语言可以减少误解,这一事实也产生了经济效益。本节中的论文展示了经济问题和包容性和多样性的民主概念如何重叠。
本书是我在加州大学圣克鲁斯分校开始学习阿拉伯语、印地语-乌尔都语、波斯语和梵语 16 年的成果,之后我在美国印度研究所、德里大学和德克萨斯大学奥斯汀分校继续学习。我的第一位印地语-乌尔都语老师约翰·莫克 (John Mock) 一直是我的主要灵感来源。我同样感谢美国乌尔都语研究所勒克瑙分校项目的所有老师,感谢他们的耐心,感谢他们带我进入乌尔都语文学的世界。我特别感谢与 Fahmida Bano、Wafadar Husain、Ahtesham Khan 和 Sheba Iftikhar 一起讨论乌尔都语单词的大量时间。在威斯康星大学麦迪逊分校,我有幸协助和观察已故的 Qamar Jalil,他的教学见解反映在本书中。在德克萨斯大学奥斯汀分校,我有幸与世界上一些最伟大的语言和文学教师一起学习。 Syed Akbar Hyder 为我提供了广泛而严格的乌尔都语文学指导。Michael Hillmann 花费数年时间训练我精通波斯语。本书阿拉伯语和波斯语单元中的许多想法和见解都直接源自他的指导。我还要感谢 Rupert Snell,我跟随他学习印地语八年,他让我领略了印地语-乌尔都语词汇的诸多乐趣以及应用语言文学的知识回报。本书也是我在加州大学伯克利分校、德克萨斯大学奥斯汀分校和威斯康星大学麦迪逊分校教授乌尔都语十一年的成果。我最初于 2008 年在威斯康星大学麦迪逊分校的南亚暑期语言学院构思了这个项目,并从与学生和同事的交谈中受益匪浅,包括 Qamar Jalil 和 Faraz Sheikh。我在德克萨斯大学奥斯汀分校的印地语-乌尔都语旗舰课程任教期间开发了这些单元的基本结构和许多课程的初稿。多年来,我在那里教过许多才华横溢的学生,但我特别感谢 Ayana D'Aguilar 和 Courtney Naquin 的反馈,他们在我研究生最后一年与我一起完成了许多练习的初稿。过去四年,我一直在加州大学伯克利分校开发和教授这些材料。他们的反馈启发了我进行无数轮的修改。特别感谢以下学生,他们在本书准备出版的最后阶段参与了本书的大部分工作:Hammad Afzal、Khudeeja Ahmed、Hammad Ali、Aparajita Das、Elizabeth Gobbo、Salil Goyal、Shazreh Hassan、Caylee Hong、Zain Hussain、Talib Jabbar、Maryam Khan、Adeel Pervez、Omar Qashoa、Adnan Rawan、Ahmad Rashid Salim、Nawal Seedat 和 Fatima Tariq。还要特别感谢 Sally Goldman 对梵文单元的有益反馈和建议,以及我的朋友和同事 Walter Hakala 在修订后期对这些单元的精辟评论。他们的反馈大大提高了本书的质量。当然,所有错误和疏忽都是我一个人的错。
IRI 设计并委托了一项互联网使用定性研究,该研究包括在哈萨克斯坦四个城市(阿斯塔纳、阿拉木图、阿特劳和奇姆肯特)进行的十二次焦点小组讨论。参与者包括互联网用户,他们的性别、年龄、教育程度、互联网使用能力和主要语言(俄语或哈萨克语)各不相同。主要研究目标是了解互联网对哈萨克斯坦人民的重要性和实用性以及互联网在当地媒体消费中的作用。其他研究目标是调查公民喜欢的互联网内容和内容语言,以及互联网关闭对哈萨克斯坦人的影响。哈萨克斯坦 Sange 研究中心进行了这项研究。与定性研究一样,本研究的结果不一定代表哈萨克斯坦所有人的意见。在本报告中,“哈萨克人”一词用于指代哈萨克族人,而“哈萨克斯坦人”一词用于指代哈萨克斯坦公民,包括少数民族。
IRI 设计并委托了一项互联网使用定性研究,该研究包括在哈萨克斯坦四个城市(阿斯塔纳、阿拉木图、阿特劳和奇姆肯特)进行的十二次焦点小组讨论。参与者包括互联网用户,他们的性别、年龄、教育程度、互联网使用能力和主要语言(俄语或哈萨克语)各不相同。主要研究目标是了解互联网对哈萨克斯坦人民的重要性和实用性以及互联网在当地媒体消费中的作用。其他研究目标是调查公民喜欢的互联网内容和内容语言,以及互联网关闭对哈萨克斯坦人的影响。哈萨克斯坦 Sange 研究中心进行了这项研究。与定性研究一样,本研究的结果不一定代表哈萨克斯坦所有人的意见。在本报告中,“哈萨克人”一词用于指代哈萨克族人,而“哈萨克斯坦人”一词用于指代哈萨克斯坦公民,包括少数民族。