Vision Transformers(Vits)在计算机VI-SION任务中出色,因为它们能够捕获令牌之间的全局上下文。但是,它们的二次复杂性o(n 2 d)就令牌数字n和功能尺寸d限制了移动设备上的实际使用,因此需要更加移动友好的VIT,并减少延迟。多头线性注意事项正在成为有前途的替代品,具有线性复杂性o(ndd),其中d是每个头尺寸。仍然需要更多的计算,因为d变得较大,以达到模型的准确性。降低D可以提高移动友好性,而牺牲了过度小头弱,但在学习有价值的子空间方面,最终阻碍了模型能力。为了克服这一效率难题,我们提出了一种新型的移动意见设计,并具有通过信息流赋予的头部竞争机制,这防止了过分强调琐碎的头部上的不太重要的子空间,同时保留了必要的子空间,以确保变压器的能力。它通过支持一个小尺寸d的小型动作效率来实现移动设备上的线性时间复杂性。通过移动注意事项替换VIT的标准注意力,我们优化的VIT在一系列计算机视觉任务中实现了增强的模型容量和竞争性的表现。特定的,我们已经在iPhone 12上实现了延迟的显着降低。代码可从https://github.com/thuml/mobileattention获得。
深度学习为时间序列分析的进步做出了显着贡献。仍然,深层模型可以在现实世界中数据筛选场景中遇到性能瓶颈,由于当前基准上的小型模型的性能饱和,可以隐藏它们。同时,大型模型通过大规模的预训练在这些情况下表现出了很大的力量。通过大型语言模型的出现,已经取得了持续的进步,这些模型表现出了前所未有的能力,例如少数通用,ization,可伸缩性和任务通用性,但是在小型深层模型中不存在。为了更改从头开始的训练方案特定小型模型的现状,本文旨在早期开发大型时间序列模型(LTSM)。在预训练期间,我们策划了最高10亿个时间点的大规模数据集,将杂项时间序列统一为单序列序列(S3)格式,并开发GPT型体系结构to-Ward ltsms。为了满足各种应用需求,我们将预测,归档和时间序列的异常检测转换为统一的生成任务。这项研究的结果是一个时间的变压器(计时器),它是由下一个令牌预测预测的生成性培训,并适用于具有有希望的Capabil-Ities作为LTSM的各种下游任务。代码和数据集可在以下网址提供:https://github.com/thuml/large time-series-模型。
扩散模型(DMS)已经实现了最新的(SOTA),从而导致LIDAR点云生成任务,从而受益于他们在抽样过程中稳定的训练和迭代精炼。但是,DMS由于其固有的降解过程而经常无法实际对LiDAR Raydrop噪声进行建模。为了保留迭代采样的强度,同时增强了射线噪声的产生,我们引入了Lidargrit,这是一种生成模型,该模型使用自动回应变压器在潜在空间而不是图像空间中迭代采样范围图像。此外,lidargrit还利用VQ-VAE分别解码范围和射线罩。我们的结果表明,与Kitti-360和Kitti Odometry数据集中的SOTA模型相比,Lidargrit的性能表现出色。代码可用:https://github.com/hamedhaghighi/lidargrit。
摘要 - 挖掘机对于诸如建设和采矿等各种任务至关重要,而自主挖掘机系统可以提高安全性和效率,解决劳动力短缺并改善人类的工作条件。与现有的模块化方法不同,本文介绍了精确的末端自动挖掘机系统,该系统处理原始的LIDAR,相机数据和关节位置,以直接控制挖掘机阀。利用具有变压器(ACT)体系结构的动作块,精确地采用模仿学习来从多模式传感器中获取观测作为输入并生成可行的序列。在我们的实验中,我们基于捕获的现实世界数据来构建一个模拟器,以模拟挖掘机阀态与关节速度之间的关系。有了一些人类经营的演示数据轨迹,精确证明了完成不同发掘任务的能力,包括通过模拟器验证中的模仿学习到达,挖掘和倾倒。据我们所知,精确代表了通过模仿学习方法以最少的人类示范集来构建端到端自主挖掘机系统的第一个实例。有关此工作的视频可以在https://youtu.be/nmzr rf-aek上访问。
摘要 - 占对象检测是在各种高安全地点执行的关键任务,包括机场,火车施工,地铁和港口。每小时检查数千张X射线图像的持续和乏味的工作可能会在精神上征税。因此,深层神经网络(DNN)可用于自动化X射线图像分析过程,提高效率并减轻安全人员的检查负担。通常在相关文学中使用的神经体系结构是卷积神经网络(CNN),而视觉变压器(VIT)很少使用。为了解决这一差距,本文对X射线图像中非法项目检测的相关VIT体系结构进行了全面评估。这项研究利用了变压器和杂化主链,例如Swin和Nextvit,以及探测器,例如Dino和RT-Detr。结果证明了Dino Transformer探测器在低数据策略,令人印象深刻的Yolov8实时性能以及混合NextVit主链的有效性中的出色准确性。索引术语 - 对象检测,X射线,视觉变压器,深神经网络
视觉转换器 (ViT) 已证明其在计算机视觉任务中比卷积神经网络 (CNN) 具有更高的精度。然而,为了在资源有限的边缘设备上有效部署,ViT 模型通常需要大量计算。这项工作提出了 Quasar-ViT,一种面向硬件的量化感知 ViT 架构搜索框架,以设计用于硬件实现的高效 ViT 模型,同时保持精度。首先,Quasar-ViT 使用我们的逐行灵活混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从不同推理延迟目标下的超网中确定一系列最佳子网。最后,我们提出了一系列 FPGA 平台上的模型自适应设计,以支持架构搜索并缩小理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上分别实现了 101.5、159.6 和 251.6 帧每秒 (FPS) 的推理速度,对于 ImageNet 数据集的 top-1 准确率分别达到 80.4%、78.6% 和 74.9%,始终优于之前的研究。
我们提出了一种新型最弱的微积分,用于对非确定性和概率程序的定量超普罗代理进行推理。现有的计算允许对数量从单个初始状态终止后假定的预期值进行推理,但我们这样做是为初始状态或初始概率分布的集合。因此,我们(i)获得了高hoare逻辑的最弱的前计算,(ii)启用有关所谓的高素质的推理,包括预期值但也包括数量(例如,差异)以前的工作范围。作为副产品,我们为加权程序获得了一个新颖的最强帖子,该职位既扩展了现有的最强和最强的自由主义后的计算。我们的框架揭示了前向和向后变压器之间的新颖二元性,正确性和不正确性以及不终止和不可收拾。
1 本文件中对 EPCA 的所有引用均指经《2020 年能源法案》(Pub. L. 116-260,2020 年 12 月 27 日)修订的法规,该法规反映了影响 EPCA A 部分和 A-1 部分的最新法定修订。2 出于编辑原因,在美国法典编纂时,B 部分被重新指定为 A 部分。3 出于编辑原因,在美国法典编纂时,C 部分被重新指定为 A-1 部分。虽然 EPCA 在 A 部分和 A-1 部分都包含有关配电变压器的规定,但为了管理方便,DOE 已在 10 CFR 第 431 部分《某些商业和工业设备的能源效率计划》中制定了配电变压器的测试程序和标准。DOE 在本文件中通常将配电变压器称为“涵盖设备”。
本文提出了一种针对GPT-Neo量身定制的逐步知识丰富的新方法,解决了在不进行全面培训的情况下使用最新信息进行更新的大型语言模型(LLMS)的挑战。我们引入了一种动态链接机制,该机制可以实时整合不同的数据源,从而增强了模型的准确性,及时性和相关性。通过严格的评估,我们的方法证明了几个指标的模型性能的显着改善。该研究为AI中最紧迫的问题之一贡献了可扩展且有效的解决方案,这可能会彻底改变LLM的维护和适用性。发现强调了创建更自适应,响应和可持续的生成模型的可行性,为该领域的未来进步开辟了新的途径。
为了提高量化的传输器的计算效率,我们仅用涉及添加和relu激活的替代机制代替了点产生和基于软max的提示。此侧位于矩阵乘法通常需要的双重精度上的扩展,并避免了昂贵的软效果评估,但保持了传统点产物关注的大部分核心功能。它可以在资源约束的硬件或算法算术系统(例如同态加密)上获得更有效的执行并支持更大的量化变压器模型。在四个常见基准任务上进行的训练实验显示了测试集的预测分数,与传统变压器的观点相媲美。我们的缩放体验还表明,无论是在宣传和加密之外,都表明了大量的计算节省。本文中引起的基于RELU和基于加法的注意机制可以通过避免加密变量的昂贵乘法来实现在同态加密下运行的隐私AI应用。