摘要 — 大型语言模型 (LLM) 的迅速普及和新兴能力激发了公众对评估和比较不同 LLM 的好奇心,导致许多研究人员提出了自己的 LLM 基准。注意到这些基准中存在初步不足,我们着手开展一项研究,通过人员、流程和技术的视角,在基准功能和完整性的支柱下,使用我们新颖的统一评估框架,对 23 个最先进的 LLM 基准进行批判性评估。我们的研究发现了重大的局限性,包括偏见、衡量真实推理的困难、适应性、实施不一致、工程复杂性、评估者多样性以及在一次全面评估中忽视文化和意识形态规范。我们的讨论强调了在人工智能 (AI) 进步的背景下,迫切需要标准化方法、监管确定性和道德准则,包括倡导从静态基准演变为动态行为分析,以准确捕捉 LLM 的复杂行为和潜在风险。我们的研究强调了法学硕士评估方法范式转变的必要性,强调了合作努力对于制定普遍接受的基准和增强人工智能系统融入社会的重要性。
摘要非可再生化石燃料的精疲力尽提高了人们对环境问题的认识。因此,生物质能量已成为一种有希望的可再生替代方案,尤其是在通过废物生物量的热解生产生物油的背景下。不幸的是,物理学模型在建模生物油生产时会遇到困难,促使研究人员倾向于以数据为中心的方法。为了应对这个问题,本文展示了近千的综合数据集,这些数据集来自先前有关生物油生产的文献。除了收集,清洁和组织收集的数据外,我们还使用了机器学习技术来评估所得数据集,最有希望的结果产生的平均绝对误差为2.6,并且调整后的R平方在预测生物油收益率方面为0.9。据我们所知,本文提供了介绍该域中有史以来最全面的数据集。这样的详尽数据集的组装对于可持续过程工程来说至关重要,因为它可以促进精确的建模,从而更好地固定在此过程中固有的不确定性。