摘要:本文解决了香草视觉变压器中与多头自我注意(MHSA)相关的高计算/空间复杂性。为此,我们提出了层次MHSA(H-MHSA),这是一种新颖的方法,以层次的方式计算自我注意力。具体来说,我们首先将输入图像分为通常完成的补丁,每个补丁都被视为令牌。然后,提议的H-MHSA学习本地贴片中的令牌关系,作为局部关系建模。然后,将小斑块合并为较大的贴片,H-MHSA对少量合并令牌的全局依赖性建模。终于,将本地和全球专注的特征汇总为具有强大表示能力的功能。由于我们仅在每个步骤中计算有限数量的令牌的注意力,因此计算负载大大减少。因此,H-MHSA可以在不牺牲细粒度信息的情况下有效地模拟令牌之间的环境关系。与H-MHSA模块合并,我们建立了一个基于层次的变压器网络的家族,即HAT-NET。为了证明帽子网络在场景中的优越性,我们就基本视觉任务进行了广泛的实验,包括图像分类,语义分割,对象titection和实例分段。因此,HAT-NET为视觉变压器提供了新的视角。代码和预估计的模型可在https://github.com/yun-liu/hat-net上找到。
扩散模型代表文本到图像生成中的新范式。除了从文本提示中生成高质量的图像之外,诸如稳定扩散之类的模型已成功扩展到了共同生成的分段伪遮罩。但是,当前的敏感主要依赖于提取与用于图像合成的及时单词相关的关注。这种方法限制了从文本提示中未包含的单词代币中得出的分割掩码的产生。在这项工作中,我们介绍了开放式摄影注意力图(OVAM) - 用于文本到图像扩散模型的无训练方法,可为任何单词生成注意力图。此外,我们提出了一个基于OVAM的轻巧优化过程,用于查找具有单个注释的对象类的准确注意图。
无人机正在广泛部署在建筑中,他们与建筑专业人员之间的相互作用预计将来会增加。但是,在建筑专业人员附近的这些空中机器人的部署可能与影响工作场所安全性和健康状况的其他风险有关。这项研究探讨了无人机在与建筑专业人士不同距离上存在的注意力影响。通过以用户为中心的虚拟现实实验,要求建筑专业人员在跟踪眼睛运动的同时,通过无人机的存在来完成施工任务。结果表明,无人机的存在会影响参与者的注意状态,这些空中机器人吸引了一些建筑专业人员的注意力。参与者的注意状态也受到无人机操作距离的影响,与无人机相比,无人机靠近无人机,而持续时间较短,而不是位于较远距离的人。这项研究的贡献是通过向行业人员告知无人机对工作地点的潜在安全性影响,并协助对行业中使用航空机器人的特定法规的形式化,来确保安全的人无人机相互作用。关键词:无人机,注意力分配影响,建筑安全,人为无人机相互作用,近亲
超分辨率医学图像可帮助医生提供更准确的诊断。在许多情况下,计算机断层扫描 (CT) 或磁共振成像 (MRI) 技术在一次检查期间会捕获多个扫描 (模式),这些扫描 (模式) 可以联合使用 (以多模态方式) 来进一步提高超分辨率结果的质量。为此,我们提出了一种新颖的多模态多头卷积注意模块来超分辨率 CT 和 MRI 扫描。我们的注意模块使用卷积运算对多个连接的输入张量执行联合空间通道注意,其中核 (感受野) 大小控制空间注意的减少率,卷积滤波器的数量控制通道注意的减少率。我们引入了多个注意头,每个头具有不同的感受野大小,对应于空间注意的特定减少率。我们将多模态多头卷积注意力 (MMHCA) 集成到两个深度神经架构中以实现超分辨率,并对三个数据集进行了实验。我们的实证结果表明,我们的注意力模块优于超分辨率中使用的最先进的注意力机制。此外,我们进行了一项消融研究,以评估注意力模块中涉及的组件的影响,例如输入的数量或头部的数量。我们的代码可在 https://github.com/lilygeorgescu/MHCA 免费获取。
本文介绍了一种新型的高质量深层检测方法,称为局部伪影注意网(LAA-NET)。现有的高质量深伪检测方法主要基于有监督的二进制分类器与隐式注意机制。因此,它们并不能很好地概括到看不见的射精。为了解决这个问题,做出了两个主要贡献。首先,提出了多任务学习框架内的明确注意机制。通过结合基于热图的和自矛盾的关注策略,LAA-NET被迫专注于一些小伪像易受攻击的区域。第二,提出了一个增强的特征金字塔网络(E-FPN),作为一种简单而有效的机制,用于将歧视性低级特征扩展到最终特征输出中,具有限制冗余的优势。在基准基准上进行的实验表明,在曲线下(AUC)和平均精度(AP)方面,我们方法的优越性。该代码可在https:// github上找到。com/10ring/laa-net。
我们为不依赖于人类反馈的大型语言模型(LLMS)提出了一种新颖的增强学习(RL)框架。相反,我们的方法使用模型本身中的交叉注意信号来获得自我监督的奖励,从而指导对模型策略的迭代微调。通过分析模型在生成过程中如何“参加”输入提示,我们构建了及时的覆盖,重点和连贯性的度量。然后,我们使用这些措施来对候选响应进行排名或评分,提供了奖励信号,鼓励模型产生良好的一致,主题文本。在与标准策略梯度方法的经验比较和合成偏好模型的RL微调中,我们的方法在非RL基线的迅速相关性和一致性方面显示出显着的提高。虽然它尚未与完全监督的RLHF系统的性能相匹配,但它突出了使用最小的人类标记来扩展对齐的重要方向。我们提供了详细的分析,讨论潜在的局限性,并概述了将基于跨注意的信号与较少人类反馈相结合的未来工作。
当今大多数心理学家对“智力”一词的理解本质上是一个差异性概念。最广为接受的智力结构描述是赫布-卡特尔-霍恩-卡罗尔(HCHC)模型(Brown,2016;Carroll,1993;McGrew,2009;见图 1),该模型将智力归因于一个层次结构。在最低层次上,特定技能和狭义的认知能力可能会对不同的认知任务产生影响。在第二层次上,更具普遍性的广义能力因素有助于解释为什么某些任务彼此之间的关联比与其他任务的关联更紧密。这些广义的能力是相关的,这种常见的、任务一般性的变异性在该模型层次结构的顶端表示为一般智力,通常表示为 g 或 g 因子。 g 因子解释了为什么所有认知任务都倾向于相互关联,这种模式被称为正流形(Carroll,1993;McGrew,2009)。尽管人们对智力结构有着广泛的共识,但对于导致智力个体差异的因果因素,人们的看法却不太一致。智力差异的一个主要解释是人们完成基本认知操作的速度不同,这被称为信息处理速度或处理速度。另一个可能的解释是执行注意力或避免分心、集中注意力和保持注意力的能力不同,有时也称为“认知控制”或“执行功能”。
摘要。朦胧的图像带来了一个具有挑战性的问题,由于信息丢失和颜色失真而遭受。当前的基于深度学习的去悬式方法通过增加网络深度来增强性能,但会导致大量参数开销。同时,标准卷积层集中在低频细节上,通常会说出高频信息,这阻碍了模糊图像中提出的先前信息的有效利用。在本文中,我们提出了TCL-NET,这是一个轻巧的飞行网络,该网络强调了频域特征。我们的网络首先包含一个用于提取高频和低频内形式的所谓层,该层是针对原始模糊图像的快速变压器专门设计的。同时,我们设计了一个频率域信息融合模块,该模块将高频和低频信息与后续卷积层的卷积网络作品集成在一起。此外,为了更好地利用原始图像的空间信息,我们引入了一个多角度注意模块。使用上述设计,我们的网络以仅0.48MB的总参数大小实现了出色的性能,与其他最先进的轻量级网络相比,参数的数量级降低了。
由于可能存在数据偏差和预测方差,图像去噪是一项具有挑战性的任务。现有方法通常计算成本高。在这项工作中,我们提出了一种无监督图像去噪器,称为自适应双自注意网络(IDEA-Net),以应对这些挑战。IDEA-Net 受益于生成学习的图像双自注意区域,其中强制执行去噪过程。此外,IDEA-Net 不仅对可能的数据偏差具有鲁棒性,而且还通过仅在单个噪声图像上应用具有泊松丢失操作的简化编码器-解码器来帮助减少预测方差。与其他基于单图像的学习和非学习图像去噪器相比,所提出的 IDEA-Net 在四个基准数据集上表现出色。 IDEA-Net 还展示了在低光和嘈杂场景中去除真实世界噪声的适当选择,这反过来有助于更准确地检测暗脸。源代码可在 https://github.com/zhemingzuo/IDEA-Net 获得。
主要的序列传导模型基于复杂的循环或卷积神经网络,包括编码器和解码器。性能最佳的模型还通过注意力机制连接编码器和解码器。我们提出了一种新的简单网络架构 Transformer,它完全基于注意力机制,完全省去了循环和卷积。在两个机器翻译任务上的实验表明,这些模型质量优越,同时可并行性更高,并且训练时间显著减少。我们的模型在 WMT 2014 英语到德语翻译任务中获得了 28.4 BLEU,比现有最佳结果(包括集成)提高了 2 BLEU 以上。在 WMT 2014 英语到法语翻译任务中,我们的模型在八个 GPU 上训练 3.5 天后,建立了新的单模型最新 BLEU 分数 41.0,这仅仅是文献中最佳模型训练成本的一小部分。
