大语言模型(LLMS)在各种领域和语言中表现出雄性的能力。然而,低资源语言(例如印尼 - 西安土著语言)出现了一个显着的质量差距,使它们在这种语言文本中具有无效和效率低下。为了弥合这一质量差距,我们介绍了Cendol,Cendol是印尼LLM的集合,其中包含了仅解码器和编码的解码器体系结构,这些架构遍布各种型号。我们强调了Cendol在各种任务中的有效性,取得了约20%的提高,并证明了其概括印度尼西亚看不见的任务和土著语言的能力。此外,Cendol模型展示了改善人类的偏爱,尽管它们在捕获印尼的知识知识和文化价值方面存在局限性。此外,我们讨论了用于语言适应的参数有效调谐(例如Lora)的缺点。另外,我们提出词汇适应的用法以提高效率。最后,我们评估了Cendol的安全性,并展示了一种语言(例如英语)的预训练的安全性,即使没有RLHF和安全性微调,也可以转移到低资源语言(例如印尼语)。1
Asriani Abbas 4 哈桑努丁大学 印尼文学研究项目 文化科学系,望加锡,印尼 摘要——机器翻译作为人工智能 (AI) 的使用不断增加,世界上最受欢迎的翻译工具是谷歌翻译 (GT)。该工具不仅用于通过翻译学习和获取外语信息,而且还被用作医院、机场和购物中心互动和交流的媒介。本文旨在探讨机器翻译在翻译法语-印尼语烹饪文本 (食谱) 中的准确性。烹饪文本样本取自互联网。研究结果表明,GT 中机器翻译的符号模型是通过强调源语言和目标语言的概念 (所指) 的等价性,从源语言的能指 (形式) 翻译成目标语言的能指 (形式)。GT 有助于通过单词、短语和句子翻译现有的法语-印尼语烹饪文本概念。烹饪文本机器翻译中遇到的一个问题是文化等值。GT 机器翻译无法准确识别源语言和目标语言的文化背景,因此结果是直译的形式。但是,可以通过从一种语言到另一种语言的单词、短语和句子细化文化等价物的翻译来提高 GT 的准确性。