摘要。本文研究了两种大语模型(LLMS)的性能-GPT-3.5-Turbo和Llama-2-13b-以及一个小型语言模型(SLM) - Gemma-2b,在气候变化(CC)和环境领域内的三个不同的分类任务。将基于BERT的模型作为基准,我们将它们的功效与这些基于变压器的模型进行了比较。此外,我们通过分析这些文本分类任务中语言置信分数的校准来评估模式的自我评估能力。我们的发现表明,尽管基于BERT的模型通常均优于LLM和SLM,但大型生成模型的性能仍然值得注意。此外,我们的校准分析表明,尽管Gemma在初始任务中得到了很好的校准,但此后会产生不一致的结果。骆驼经过合理的校准,GPT始终表现出强大的校准。通过这项研究,我们旨在为持续的讨论生成LMS在解决地球上一些最紧迫的问题方面的实用性和有效性的讨论中做出贡献,并在生态学和CC的背景下强调了它们的优势和局限性。
主要关键词