详细内容或原文请订阅后点击阅览
变形金刚的机理视图:模式,消息,残留流…和LSTMS
当您停止串联并开始分解时会发生什么:思考注意力的新方法。变形金刚的后机械观点:模式,消息,残留流……和LSTMS首先出现在数据科学上。
来源:走向数据科学我的上一篇文章,我讨论了机械性的解释性如何在变形金刚中重新想象着具有添加剂而无需任何串联。在这里,我将更深入地了解这一观点,并展示它如何与LSTMS的想法产生共鸣,以及这种重新解释如何为理解的新大门打开新的大门。
文章扎根于自己:变形金刚中的注意机制依赖于一系列涉及查询(q),key(k),value(v)和输出投影矩阵(O)的矩阵乘法。传统上,每个头部都独立计算注意力,结果是连接的,然后通过O进行了投影。但是从机械的角度来看,可以看出,重量矩阵O的最终投影实际上是每个头部应用的(与传统的串联头部的观点相比,然后投影了)。这种微妙的转移意味着头部是独立的,可以分开,直到结束为止。
实际上是每个人应用的模式和消息
关于Q,K和V的简短类比:每个矩阵是嵌入E的线性投影。然后,Q中的令牌可以被认为是问“哪些其他令牌与我相关的问题?”对K表示键(例如在hashmap中)的键(例如,在V中存储的代币中包含的实际信息)。以这种方式,序列中的输入令牌知道要参与哪个代币,以及多少。
本质上,Q和K确定了相关性,V含有内容。这种互动告诉每个人都会参与其中,以及多少。现在,让我们看看将头视为独立的方式如何导致以下观点,即每头查询键和价值输出矩阵属于两个独立的过程,即模式和消息。
相关性 内容 模式和消息。解开关注步骤: