我们比较了开放量和封闭式LLM的性能,例如Llama-3和GPT-4与跨孟加拉语下流任务的微调编码器模型,包括翻译,摘要,汇总,释义,问答,提示和自然语言的推流。我们的发现表明,尽管LLM通常在执行任务方面表现出色,但它们在重新制定孟加拉语脚本生成的任务中的表现却是不明智的。关键挑战包括现有LLM对孟加拉脚本的效率低下,从而导致计算成本增加和潜在的性能退化。加法 - 我们重点介绍了通常用于孟加拉NLP任务的机器翻译数据集中的偏差。我们得出的结论是,孟加拉国面向的LLM非常需要,但是该领域通常缺乏为降低一个高效模型所需的高质量预科和指导调整数据集。*
10 Cobbe 和 Singh 的论文旨在将基础模型与 LLM 进行比较。他们解释说,“考虑到对数据、专业知识和计算能力的需求,内部机器学习可能会令人望而却步。通过让开发人员能够以低成本、无需大量投入的方式将最先进的 ML 功能‘插入’到他们的应用程序中,AIaaS 增加了 ML 支撑更广泛应用程序的可能性”。 Jennifer Cobbe 和 Jatinder Singh,“人工智能即服务:法律责任、义务和政策挑战” [2021] 计算机法律与安全评论 < https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3824736> 访问日期:2021 年 9 月 19 日 11 Bommasani 等人 (n 8) 3. 12 例如,如果基础模型在有毒数据上进行训练,那么建立在它们之上的所有下游应用程序都会因此受到“污染”。 13 Emily M. Bender 和 Alexander Koller,《攀登自然语言理解:数据时代的意义、形式和理解》(计算语言学协会 2020 年)< https://aclanthology.org/2020.acl-main.463/ > 于 2021 年 9 月 15 日访问 14 Samoili 等人(注 5)