Loading...
机构名称:
¥ 1.0

背景:大型语言模型(LLM)已通过对大型数据集进行广泛的培训来彻底改变自然语言处理。这些模型,包括生成培训的预训练的变压器(GPT)-3.5(OpenAI),GPT-4(OpenAI)和Bard(Google LLC),可以在自然语言处理以外找到应用程序,吸引了学术界和行业的兴趣。学生正在积极利用LLM来增强学习经验并为高风险考试做准备,例如印度的国家资格入学考试(NEET)。目的:此比较分析旨在评估GPT-3.5,GPT-4和BARD的性能,以回答NEET-2023问题。方法:在本文中,我们评估了3个主流LLM的性能,即GPT-3.5,GPT-4和Google Bard,回答了与NEET-2023考试有关的问题。将NEET的问题提供给了这些人工智能模型,并记录了答案并与官方答案密钥的正确答案进行了比较。共识用于评估所有3个模型的性能。结果:很明显,GPT-4通过鲜艳的颜色(300/700,42.9%)通过了入学考试,展示了出色的表现。另一方面,GPT-3.5设法满足了合格的标准,但得分较低(145/700,20.7%)。但是,bard(115/700,16.4%)未能符合合格条件,并且没有通过测试。gpt-4在所有3名受试者中均表现出比吟游诗人和GPT-3.5的优势。使用GPT-4作为比较模型之一,将导致更高的精度共识。具体来说,GPT-4在物理学中达到了73%(29/40)的准确率,化学的准确率为44%(16/36),生物学的准确率为51%(50/99)。相反,GPT-3.5的物理学的准确率为45%(18/40),化学的准确率为33%(13/26),生物学的精度为34%(34/99)。准确性共识度量表明,与BARD和GPT-3.5之间的匹配响应相比,GPT-4和BARD以及GPT-4和GPT-4和GPT-4和GPT-4和GPT-3.5之间的匹配响应分别为0.56和0.57。同时考虑所有3个模型时,它们的匹配响应达到了0.59的最高精度共识。结论:该研究的发现为GPT-3.5,GPT-4和BARD的表现提供了宝贵的见解,以回答NEET-2023问题。GPT-4成为最准确的模型,突出了其在教育应用的潜力。跨模型的交叉检查响应可能会导致混乱,因为比较模型(如二重奏或三重奏)倾向于仅在正确的一半以上的正确响应上达成共识。结果强调了LLMS对高风险考试的适用性及其对教育的积极影响。此外,

GPT-3.5,GPT-4和BARD的比较分析

GPT-3.5,GPT-4和BARD的比较分析PDF文件第1页

GPT-3.5,GPT-4和BARD的比较分析PDF文件第2页

GPT-3.5,GPT-4和BARD的比较分析PDF文件第3页

GPT-3.5,GPT-4和BARD的比较分析PDF文件第4页

GPT-3.5,GPT-4和BARD的比较分析PDF文件第5页

相关文件推荐