Clarin的战略取向:“作为社会和文化数据的语言:在AI时代使用语言材料的研究基础结构支持。语言是文化内容和信息的载体。语言还可以作为对科学和社会知识的反思,作为人类交流和说服力的工具,是个人,群体,文化和国家的身份的核心方面之一,是人类认知和创造性表达的工具,以及作为正式系统。语言材料构成了被认为是文化遗产的历史记录中相当大的一部分。通过提供语言材料的访问,Clarin促进了复杂现象的比较研究观点,并可以开发数据驱动的分析和这些现象的计算建模。Clarin提供的资源还为大型语言模型,人工智能的关键技术(AI)以及用于分析异质数据的方法学框架开发的培训和开发。
摘要:本文介绍了一种新颖的自然语言处理(NLP)模型,作为一种原始的情感分析方法,重点是理解重大灾难或冲突期间的情绪反应。该模型是专门针对克罗地亚人创建的,是基于umigrams的,但可以与任何支持N-gram模型并扩展到多个单词序列的语言一起使用。提出的模型生成的情感分数与离散和维情感模型,可靠性指标以及使用情感数据集的单个单词分数相符,扩展了ENEW和NRC WordMotion Association Lexicon。情感分析模型结合了不同的方法,包括基于词典的机器学习和混合方法。预处理的过程包括翻译,诱饵和数据改进,使用自动翻译服务以及南斯拉夫语言的clarin知识中心(ClassLA)库,并特别强调了变节标记校正和代币化。在最近影响克罗地亚的三个主要自然危机上对提出的模型进行了实验评估。该研究的发现表明,在Covid-19大流行期间,情绪维度发生了显着转变,尤其是降低的价,唤醒和优势,这与两个月的恢复期相对应。此外,2020年克罗地亚地震引起了各种各样的负面离散情绪,包括愤怒,恐惧和悲伤,休养时期的时间比COVID-19。这项研究代表了情感分析的进步,尤其是在语言特定的环境中,并提供了对主要社会事件形成的情感景观的见解。