大语言模型安全研究在 2026 年春季研究生毕业典礼上荣获 Rath 奖 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

大语言模型安全研究在 2026 年春季研究生毕业典礼上荣获 Rath 奖

2026年5月16日 01:56 33 Comments

在 2026 年春季研究生毕业典礼上，Mines 荣获了专注于法学硕士安全和人工智能模型内部决策的顶级博士论文。

来源:佩恩公共政策研究所

Michael Ivanitskiy，应用数学和统计学博士，是 2026 年春季 Bhakta Rath 博士和 Sushama Rath 研究奖获得者。

该荣誉于 5 月 15 日举行的 2026 年春季研究生毕业典礼上颁发，旨在表彰科罗拉多矿业学院的博士研究生，其论文展现了对社会影响的最大潜力。

颁奖典礼上，矿业大学向5月份毕业生授予了58名博士学位和426名硕士学位。

Ivanitskiy 的论文“语言模型中表示、注意力和计算的可解释性”重点关注人工智能安全以及围绕可解释性和一致性开发大型语言模型 (LLM) 新方法——我们理解人工智能系统决策并确保人工智能系统按照人类意图、价值观和道德原则行事的能力。

法学硕士已经影响着人们在生活各个领域的学习、工作和获取信息的方式，包括教育、医疗保健、金融和科学研究。但这些模型在很大程度上仍然是不透明的，缺乏透明度，使得人们很难理解它们为什么会产生某些输出、它们何时可能失败，以及如何确保它们在高风险环境中安全运行。

Ivanitskiy 的研究通过开发可解释性技术来直接应对这一挑战，这些技术揭示了法学硕士的内部结构和决策过程。他的导师是应用数学和统计学助理教授 Samy Wu Fung，以及 Joe & Jane Gray 杰出大学应用数学和统计学主席 Cecilia Diniz Behn。

“Michael 的工作重点是更好地理解人工智能安全背景下法学硕士的内部机制，特别是确保功能日益强大的人工智能系统具有可解释性、可靠性并符合人类价值观，”Wu Fung 说。 “这种研究将在解决本世纪的决定性挑战之一方面发挥关键作用。”

拉斯奖决赛入围者是：

信息的医疗保健理解可靠性透明度人工智能模型新方法仍然是 Michael 强大的一致性决策确保决定性 2026 解释性 Rath 为什么统计学价值观法学硕士应用数学注意力 Wu 系统影响 Ivanitskiy 计算的安全运行不透明的挑战科学研究透明的