AI有一天可以替换导师,但其可靠性仍然滞后

人工智能已成为许多人日常生活中不可或缺的一部分。大型语言模型(LLM),例如Chatgpt,Gemini或Copilot为他们编写信件和学期论文,提供有关假期短途旅行的提示,或者在每个可能的主题上回答问题。

来源:英国物理学家网首页
用于培训AI算法的数据集可能不足以占老年人。学分:Pixabay/CC0公共领域

人工智能已成为许多人日常生活中不可或缺的一部分。大型语言模型(LLM),例如Chatgpt,Gemini或Copilot为他们编写信件和学期论文,提供有关假期短途旅行的提示,或者在每个可能的主题上回答问题。

在许多领域的大学中,人工智能的使用也很长。大型语言模型在多大程度上可以支持自然科学的学生作为无监督的导师? Julius-Maximilians-Universitätwürzburg(JMU)的研究小组现在调查了这个问题。该团队的结果发表在Arxiv预印服务器上。

人工智能 大语言模型 已发布 arxiv

一种自由访问的评估工具

迄今为止,物理化学系的研究小组主要对纳米材料的光谱进行了研究,现在已经开发了一种工具来测试对现代LLM的热力学理解的工具,尤其是他们的技能是否超出了单纯的事实知识。该工具称为UTQA(本科热力学问题答案),是可以自由访问的,旨在支持教师和研究人员以公平和特定的主题方式评估LLM,并使进度可衡量。

“我们的愿望是,AI有一天能够作为教学的无监督合作伙伴来支持我们,例如,以有能力的聊天机器人的形式,这些聊天机器人在准备和随访中对每个学生的需求进行单独响应。

“使用UTQA,我们展示了当前语言模型已经令人信服的地方以及它们系统地失败的地方 - 这正是讲师为能够负责任地计划其在教学中的使用所需的。”

出生于教学

结果:固体,但还不够可靠

成功率