大型语言模型(LLM)提供了有关回答(QA)方案的重要价值,并在复杂的决策环境(例如生物多样性保护)中具有实际应用。然而,尽管性能进行了实质性提高,但它们仍可能产生不准确的结果。因此,将不确定性量化与预测同时纳入预测至关重要。这项研究介绍了对蒙特卡洛辍学(MCD)和预期校准误差(ECE)的应用来评估生成语言模型的不确定性的探索性分析。为此,我们分析了两种公开可用的语言模型(Falcon-7b和Distilgpt-2)。我们的发现表明,将ECE用作估计生成LLM不确定性的指标的可行性。这项研究的发现有助于一个更广泛的项目,旨在促进有关哥斯达黎加生物多样性的标准化和集成数据和服务的自由访问,以支持科学,教育和生物多样性保护的发展。
主要关键词