详细内容或原文请订阅后点击阅览
提高人工智能模型解释其预测的能力
一种新方法可以帮助用户知道是否信任模型在医疗保健和自动驾驶等安全关键应用中的预测。
来源:MIT新闻 - 人工智能在医疗诊断等高风险环境中,用户通常想知道是什么导致计算机视觉模型做出某种预测,以便他们可以确定是否信任其输出。
概念瓶颈建模是一种使人工智能系统能够解释其决策过程的方法。这些方法迫使深度学习模型使用一组人类可以理解的概念来做出预测。在新的研究中,麻省理工学院的计算机科学家开发了一种方法,可以引导模型获得更好的准确性和更清晰、更简洁的解释。
模型使用的概念通常由人类专家提前定义。例如,临床医生可以建议使用“聚集的棕色点”和“杂色色素沉着”等概念来预测医学图像显示黑色素瘤。
但之前定义的概念可能与特定任务无关或缺乏足够的细节,从而降低了模型的准确性。新方法提取模型在接受训练以执行特定任务时已经学到的概念,并强制模型使用这些概念,从而产生比标准概念瓶颈模型更好的解释。
该方法利用一对专门的机器学习模型,自动从目标模型中提取知识并将其转换为简单语言概念。最后,他们的技术可以将任何预先训练的计算机视觉模型转换为可以使用概念来解释其推理的模型。
他与 Schrasing Tong SM '20、PhD '26 共同撰写了一篇关于该工作的论文; Marco Brambilla,米兰理工大学计算机科学与工程教授;以及 CSAIL 首席研究科学家、资深作者 Lalana Kagal。该研究将在国际学习表征会议上公布。
建立更好的瓶颈
这个中间步骤或“瓶颈”可以帮助用户理解模型的推理。
控制概念
