新技术使人工智能模型在学习过程中变得更精简、更快

研究人员利用控制理论在训练过程中消除人工智能模型不必要的复杂性,从而在不牺牲性能的情况下降低计算成本。

来源:MIT新闻 - 人工智能

训练大型人工智能模型非常昂贵,不仅需要花费金钱,还需要花费时间、精力和计算资源。传统上,获得更小、更快的模型要么需要首先训练一个大型模型,然后对其进行修剪,要么从头开始训练一个小型模型并接受较弱的性能。

麻省理工学院计算机科学和人工智能实验室 (CSAIL)、马克斯·普朗克智能系统研究所、欧洲学习和智能系统实验室、ETH 和 Liquid AI 的研究人员现已开发出一种新方法,可以完全回避这种权衡,在训练期间而不是之后压缩模型。

这项名为 CompreSSM 的技术针对一系列称为状态空间模型的 AI 架构,为从语言处理到音频生成和机器人等各种应用提供支持。通过借用控制理论中的数学工具,研究人员可以确定模型的哪些部分正在发挥作用,哪些部分是自重,然后在训练过程的早期通过外科手术去除不必要的组件。

“这本质上是一种让模型在训练过程中变得更小、更快的技术,”CSAIL 附属机构电气工程和计算机科学博士生、该论文的主要作者 Makram Chahine 说道。 “在学习过程中,他们也会去掉对他们的发展无用的部分。”

“这项工作的令人兴奋之处在于,它将压缩从事后的想法变成了学习过程本身的一部分,”资深作者、麻省理工学院教授兼 CSAIL 主任 Daniela Rus 说道。 “CompreSSM 不是训练一个大型模型,然后弄清楚如何使其更小,而是让模型在学习时发现自己的有效结构。这是构建 AI 系统的一种根本不同的思考方式。”