获取独家产品信息,尽享促销优惠!立即订阅,不容错过
* 限···时··优惠
开发针对巨大低资源语言的对话摘要是一项挑战任务。我们介绍了Nusadialogue,这是马来语 - 波利尼西亚语言家族中三种代表性不足语言的对话摘要数据集:Minangkabau,Balinese和Buginese。nusadialogue coverers 17个主题和185个子主题,由73位母语人士提供了注释。另外,我们使用中型印尼特异性语言模型(LMS)进行了精细调整,并对各种多语言大型语言模型(LLMS)进行了零和少数学习。结果表明,对于诸如Minangkabau,Balinese和Buginese之类的极低的资源语言,微调方法的性能与零射击提示相比,其性能明显更高,即使在LLMS具有相当大的Parame-Parame-Parame-ter尺寸时,也会产生更高的提示。我们在https://huggingface.co/ datasets/prosa-text/nusa-dialogue un- der cc-by-sa 4.0许可证中公开发布nusadia-logue数据集。