大语言模型安全研究在 2026 年春季研究生毕业典礼上荣获 Rath 奖

在 2026 年春季研究生毕业典礼上,Mines 荣获了专注于法学硕士安全和人工智能模型内部决策的顶级博士论文。

来源:佩恩公共政策研究所

Michael Ivanitskiy,应用数学和统计学博士,是 2026 年春季 Bhakta Rath 博士和 Sushama Rath 研究奖获得者。

该荣誉于 5 月 15 日举行的 2026 年春季研究生毕业典礼上颁发,旨在表彰科罗拉多矿业学院的博士研究生,其论文展现了对社会影响的最大潜力。

颁奖典礼上,矿业大学向5月份毕业生授予了58名博士学位和426名硕士学位。

Ivanitskiy 的论文“语言模型中表示、注意力和计算的可解释性”重点关注人工智能安全以及围绕可解释性和一致性开发大型语言模型 (LLM) 新方法——我们理解人工智能系统决策并确保人工智能系统按照人类意图、价值观和道德原则行事的能力。

法学硕士已经影响着人们在生活各个领域的学习、工作和获取信息的方式,包括教育、医疗保健、金融和科学研究。但这些模型在很大程度上仍然是不透明的,缺乏透明度,使得人们很难理解它们为什么会产生某些输出、它们何时可能失败,以及如何确保它们在高风险环境中安全运行。

Ivanitskiy 的研究通过开发可解释性技术来直接应对这一挑战,这些技术揭示了法学硕士的内部结构和决策过程。他的导师是应用数学和统计学助理教授 Samy Wu Fung,以及 Joe & Jane Gray 杰出大学应用数学和统计学主席 Cecilia Diniz Behn。

“Michael 的工作重点是更好地理解人工智能安全背景下法学硕士的内部机制,特别是确保功能日益强大的人工智能系统具有可解释性、可靠性并符合人类价值观,”Wu Fung 说。 “这种研究将在解决本世纪的决定性挑战之一方面发挥关键作用。”

拉斯奖决赛入围者是: