在过去的十年半的人工智能和学习中的一半中,一个关键的进步是开发从较低级别的原始输入特征(例如图像像素强度和单词性)[1,2,2,2,3,4,5,6,7]中学习更高级别的方法。这些较高级别表示的关键优势是它们捕获了更少的变量的富裕语义,因此,在其中,我们可以在其中学习统计上有效的模型,用于各种下游任务,例如预测,分类和聚类。近年来的关键进步是学习这些表示形式,而不是使用传统的手工制作的效果,这些效率很难正确,正确地指定。这导致了著名的应用程序,例如Dall-E,Stablediffusion,Chatgpt和Audiolm等。
主要关键词