摘要。我们为开放世界实例(OWIS)提出了一种方法,该任务旨在通过从训练过程中的一组有限的带注释的对象类中概括图像中的任意未知的观察。我们的细分对象系统(SOS)明确地解决了最先进系统的概括能力和低精度,这些系统通常会生成背景检测。为此,我们基于基础模型SAM [27]生成了高质量的伪注释。我们彻底研究了各种对象先验,以引起SAM的提示,并明确将基础模型集中在观察上。最强的物体先验是通过自我监督视觉变压器的自我发项图获得的,我们用来促使SAM。最后,SAM的后处理片段用作伪注释来训练标准实例分割系统。我们的方法在可可,LVI和ADE20K数据集上显示出强大的概括能力,并且与最先进的方法相比,精度提高了高达81.6%。源代码可用:https://github.com/chwilms/sos
• 带环保封装的压力传感器 • 操作范围:压力:300 –1200 hPa。温度:-40 – 85 °C。• 压力传感器精度:± 0.002 hPa(或 ±0.02 m)(高精度模式)。• 相对精度:± 0.06 hPa(或 ±0.5 m) • 绝对精度:± 1 hPa(或 ±8 m) • IPx8 认证:临时浸泡在 50m 深水中 1 小时 • 温度精度:± 0.5°C。• 压力温度灵敏度:0.5Pa/K • 测量时间:标准模式(16x)通常为 27.6 ms。最小值:低精度模式为 3.6 ms。• 平均电流消耗:压力测量 1.7 µA,温度测量 @1Hz 采样率 1.5 µA,待机:0.5 µA。• 电源电压:VDDIO:1.2 – 3.6 V,VDD:1.7 – 3.6 V。 • 操作模式:命令(手动)、后台(自动)和待机。• 校准:使用系数单独校准以进行测量校正。• FIFO:存储最多 32 个压力或温度测量值。• 接口:I2C 和 SPI(均带有可选中断) • 封装尺寸:8 针 PG-VLGA-8-2,2.0 mm x 2.5 mm x 1.1 mm。• 符合绿色产品 (RoHS)
• 带有耐环境封装的压力传感器 • 操作范围:压力:300 –1200 hPa。温度:-40 – 85 °C。• 压力传感器精度:± 0.002 hPa(或 ±0.02 m)(高精度模式)。• 相对精度:± 0.06 hPa(或 ±0.5 m)• 绝对精度:± 1 hPa(或 ±8 m)• IPx8 认证:暂时浸泡在 50m 深的水中 1 小时 • 温度精度:± 0.5°C。• 压力温度灵敏度:0.5Pa/K • 测量时间:标准模式(16x)通常为 27.6 ms。最小值:低精度模式为 3.6 ms。• 平均电流消耗:压力测量为 1.7 µA,温度测量为 1.5 µA @1Hz 采样率,待机:0.5 µA。 • 电源电压:VDDIO:1.2 – 3.6 V,VDD:1.7 – 3.6 V。• 操作模式:命令(手动)、后台(自动)和待机。• 校准:使用系数单独校准以进行测量校正。• FIFO:存储最多 32 个压力或温度测量值。• 接口:I2C 和 SPI(均带有可选中断)• 封装尺寸:8 针 PG-VLGA-8-2,2.0 毫米 x 2.5 毫米 x 1.1 毫米。• 符合绿色产品(RoHS)标准
摘要 - 备受瞩目的人工智能和机器学习(AI/ML)工作负载,对标准和复杂的浮点数的高性能矩阵操作的需求仍然很强,但服务不足。ever,广泛采用的低精度矩阵处理单元(MXU)只能满足对AI/ML工作负载的需求,AI/ML工作负载在其目标域以外运行应用程序时未充分利用或空闲。本文介绍了M 3 XU,支持IEEE 754单精制和复杂32位浮点数的多模式矩阵处理单元。m 3 XU不依赖更精确的乘数。相反,M 3 XU提出了一种多步方法,该方法扩展了AI/ML工作负载的现有MXU。所得的m 3 XU可以无缝地升级现有系统,而无需程序员的努力并保持现有内存子系统的带宽需求。本文通过全系统仿真和硬件综合评估M 3 XU。m 3 XU可以达到32位矩阵乘法的3.64×加速度,与常规矢量处理单元相比,对于复杂数字操作的3.51×速度。
摘要 — 在本文中,我们回顾了过去 3 年在神经形态工程领域发表的最新研究,以分析此类系统的共同特征。我们发现没有明确的共识,但每个系统都具有以下一个或多个特征:(1)模拟计算(2)非冯诺依曼架构和低精度数字处理(3)脉冲神经网络 (SNN),其组件与生物学密切相关。我们比较了最近的机器学习加速器芯片,以表明模拟处理和降低位精度的架构确实具有最佳的吞吐量、能量和面积效率。然而,纯数字架构也可以通过采用非冯诺依曼架构来实现相当高的效率。鉴于数字硬件设计的设计自动化工具,它提出了一个问题,即在不久的将来工业设计中采用模拟处理的可能性。接下来,我们讨论了定义标准和选择适当基准对于神经形态系统设计进展的重要性,并提出了此类基准的一些期望特征。最后,我们展示了脑机接口作为一项潜在任务,它满足了这些基准的所有标准。索引术语——神经形态、低功耗、机器学习、脉冲神经网络、忆阻器
I. I n t r o d u c t i o n神经形态计算旨在理解和适应自然界中神经体系结构的基本属性,以发现一种新的计算机体系结构模型,该模型本来可以适合于大脑启发的计算类别,这些计算挑战了Von Neu-Mann模型。这些属性包括完全集成的记忆和计算,精细的并行性,普遍反馈和复发,大量的网络粉丝,低精度和随机计算以及通常与学习相关的持续适应过程。这些属性还包括稀疏,基于尖峰的互动,以中介分布式通信。这种尖峰神经网络(SNN)自然会通过以异步,事件驱动的方式进行操作,而偏爱非活性状态和低延迟处理来提供能量效率。从该诉讼中产生的计算的重新思考以意想不到的方式与相关领域相交,例如机器学习,深度学习,人工智能,计算科学和计算机架构。正如这项调查的结果所示,诸如Loihi之类的芯片及其支持的工作量不适合在一个精心设计的框中,至少不是当今已被充分了解的盒子。
摘要 - 本文报告了紧凑的神经网络拓扑设计的主要最新算法促进器,同时依靠基本的数值实验。嵌入传感器智能执行推理任务通常需要适当定义硬件限制下专门针对特定目的的神经网络体系结构。硬件设计约束称为功耗,硅表面,延迟和最大时钟频率上限可用资源,即记忆容量和算法复杂性。我们建议将算法启用器分类为4种类型,这些算法促进器会迫使硬件约束,同时保持精确度尽可能高。首先,降低尺寸(DR)用于减少预定的硬件编码模式,以减少内存需求。其次,使用归一化(QN)的低精度量化既可以简化硬件组件,又可以限制整体数据存储。第三,连通性修剪(CP)涉及对过度拟合的改进,同时限制了不必要的计算。最后,在提前通过的推论期间,可以执行拓扑零件的动态选择性执行(DSE)以限制整个拓扑的激活,从而减少整体功耗。索引术语 - 神经网络,压缩感应,随机修剪,量化神经网络,动态神经网络,硬件 - 算法共同设计。
虽然神经胶质瘤已成为最常见的癌性脑肿瘤,但通过 3D MRI 进行手动诊断非常耗时,且不同的放射治疗师进行的诊断可能不一致,因此迫切需要自动分割脑肿瘤。最先进的方法采用 FCN 来自动分割 MRI 扫描。特别是 3D U-Net 已经取得了显著的表现,并激发了一系列后续研究。然而,它们巨大的规模和繁重的计算阻碍了它们的实际部署。尽管存在大量关于使用低精度表示压缩 CNN 的文献,但它们要么注重减少存储而没有计算改进,要么导致严重的性能下降。在本文中,我们提出了一种 CNN 训练算法,该算法使用非负整数以及训练过的仿射映射函数来近似权重和激活。此外,我们的方法允许以整数算术方式执行点积运算,并将浮点解码和编码阶段推迟到层的末尾。 BraTS 2018 上的实验结果表明,我们训练过的仿射映射方法在 8 位权重和激活的情况下实现了接近全精度的骰子精度。此外,在使用 4 位和 2 位精度时,我们分别实现了与全精度骰子精度相差 0.005 和 0.01 以内的骰子精度。
抽象的预测处理已被提出为所有认知基础的单个统一计算,支持者认为所有心理现象都可以解释为这种机制的后果。该理论启发了许多认知科学家和神经科学家,但目前没有发育机制可以解释婴儿如何开始感知和了解世界。相反,它将人类认知视为存在于具有观察和世界知识史的完全发达的成年人中。在目前的表述中,预测处理仅允许根据以前的经验存在期望的感知,因此不允许婴儿永远进行第一个观察。在本文中,我们提出了一个可能的起点,婴儿可以从中开始开发预测模型,以及使婴儿能够对学习所需的预测模型进行一系列认知操作所需的工具包。我们提出的起点是一组低精度,低水平的细节预测,几乎没有分层结构,这是非常迅速的更新以反映婴儿的早期环境。该工具包包含一系列操作,称为结构学习,这些操作适用于模型,以允许构建类似成人的层次模型。这些修改是发展科学家能够采用预测处理框架并从其优势中受益的必要条件,也需要预测性处理,以便能够解释所有人类认知,这些认知本质上必须包括发展。
引言和总结 3 芯片创新的规律 7 晶体管缩小:摩尔定律 7 效率和速度改进 8 提高晶体管密度可实现改进的设计,从而提高效率和速度 9 晶体管设计正在达到基本尺寸极限 10 摩尔定律的放缓和通用芯片的衰落 10 通用芯片的规模经济 10 成本增长速度快于半导体市场 11 半导体行业的增长率不太可能增加 14 随着摩尔定律的放缓,芯片得到了改进 15 晶体管的改进仍在继续,但速度正在放缓 16 提高晶体管密度可实现专业化 18 AI 芯片动物园 19 AI 芯片类型 20 AI 芯片基准 22 最先进 AI 芯片的价值 23最先进的人工智能芯片意味着成本效益 23 计算密集型人工智能算法受到芯片成本和速度的瓶颈制约 26 美国和中国的人工智能芯片及其对国家竞争力的影响 27 附录 A:半导体和芯片基础知识 31 附录 B:人工智能芯片的工作原理 33 并行计算 33 低精度计算 34 内存优化 35 领域特定语言 36 附录 C:人工智能芯片基准研究 37 附录 D:芯片经济模型 39 芯片晶体管密度、设计成本和能源成本 40 代工、组装、测试和封装成本 41 致谢 44