视觉变压器具有分层注意力___XiaoMi-AI 助力科研平台

视觉变压器具有分层注意力

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

视觉变压器具有分层注意力

¥ 1.0

热度

摘要：本文解决了香草视觉变压器中与多头自我注意（MHSA）相关的高计算/空间复杂性。为此，我们提出了层次MHSA（H-MHSA），这是一种新颖的方法，以层次的方式计算自我注意力。具体来说，我们首先将输入图像分为通常完成的补丁，每个补丁都被视为令牌。然后，提议的H-MHSA学习本地贴片中的令牌关系，作为局部关系建模。然后，将小斑块合并为较大的贴片，H-MHSA对少量合并令牌的全局依赖性建模。终于，将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力，因此计算负载大大减少。因此，H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并，我们建立了一个基于层次的变压器网络的家族，即HAT-NET。为了证明帽子网络在场景中的优越性，我们就基本视觉任务进行了广泛的实验，包括图像分类，语义分割，对象titection和实例分段。因此，HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。

添加pdf代下载 VIP点击下载文件