使用几何和物理学来解释深度神经网络中的特征学习

深神经网络(DNNS),机器学习算法支撑了大语言模型(LLMS)和其他人工智能(AI)模型的功能,学会通过分析大量数据来进行准确的预测。这些网络以层为单位结构,每个网络都将输入数据转换为“特征”,以指导下一层的分析。

来源:英国物理学家网首页
一个手工折叠的统治者类比,该团队发现该类比可用于模拟不同制度的DNN培训。图片来源:Shi,Pan&Dokmanic。

深神经网络(DNNS),机器学习算法支撑了大语言模型(LLMS)和其他人工智能(AI)模型的功能,学会通过分析大量数据来进行准确的预测。这些网络以层为单位结构,每个网络都将输入数据转换为“特征”,以指导下一层的分析。

DNNS学习功能的过程一直是许多研究的主题,最终是这些模型在各种任务上表现良好的关键。最近,一些计算机科学家已经开始使用植根于物理学的框架和方法来探索在DNN中进行特征学习建模的可能性。

巴塞尔大学和中国科学技术大学的研究人员发现了一个相图,这是一个类似于热力学中用于描述液体,气态和固体水的水的图表,这代表了DNN在各种条件下学习特征。他们的论文发表在《物理评论信》上,将DNN建模为弹簧块链,这是一种简单的机械系统,通常用于研究线性(弹簧)和非线性(摩擦)力之间的相互作用。

相图 已发布 物理评论信

“我和我在一个讲习班上,那里有关于'数据分离定律'的鼓舞人心的演讲。 “深层神经网络的层(以及人类视觉皮层等生物神经网络的层次)通过逐步蒸馏和简化它们来处理输入。

生物神经网络 深神经网络 物理系统
图代表了团队在深神经网络中特征学习的弹簧块理论。图片来源:Shi,Pan&Dokmanic。
Ingrid Fadelli Gaby Clark 罗伯特·埃根(Robert Egan) 捐赠 免费 更多信息: