微证书是对传统资格认证的补充。它们是短期课程,学分为 1 到 15 个 ECTS(欧洲学分转换与累积系统)学分,如 ECTS 指南 [1] 中所述。这些课程使学习者能够获得符合社会和劳动力市场需求的特定能力和技能,如欧盟委员会的 2024 年战略 [2] 中所述。欧盟委员会的这一倡议旨在建立一个欧洲层面的标准,使这些教育经历的学习成果得到雇主、学习者和教育培训机构的认可和理解。这是欧洲教育区的一个关键组成部分。以此方式,2023 年 6 月,高校部提出了微证书计划(Microcreds),并在 2024-2026 年期间为其发展提供了 5600 万欧元的经济资助 [3]。在西班牙,一群大学创建了西班牙开放硬件联盟 (SOHA),该联盟以教育、研究和创新为范式。SOHA 的目标是扩大开放硬件的使用,其成功策略基于 RISC-V 架构和 Linux 的使用。RISC-V 代表了处理器架构的发展机会,因为其指令集 (ISA) 不需要支付许可费或版税。这为我们提供了确保协作和高效发展的机制,无论是在国家还是欧洲层面。此外,SOHA 还推动与其活动领域相关的联合国可持续发展目标 (SDG),例如提高能源效率、减少碳足迹、提高经济生产力、平等机会、增加信息和通信技术 (ICT) 的使用,以及基于上述三个基本支柱的协同作用的协作演进 [4]。
摘要 目的. 脑机接口(BCI)近年来在扩展其指令集方面取得了重大进展,引起了研究者的广泛关注。目标和命令的数量是BCI解码大脑意图能力的关键指标。目前尚无研究报道过具有超过200个目标的BCI系统。方法. 本研究开发了第一个具有多达216个目标的高速BCI系统,这些目标由多种脑电图特征编码,包括P300、运动视觉诱发电位(mVEP)和稳态视觉诱发电位(SSVEP)。具体而言,混合BCI范式使用时频分多址策略,用不同时间窗的P300和mVEP以及不同频率的SSVEP精心标记目标。然后通过任务判别成分分析和线性判别分析解码混合特征。十名受试者参加了离线和在线提示引导拼写实验。另外十名受试者参加了在线自由拼写实验。主要结果。离线结果显示,mVEP 和 P300 成分在中央、顶叶和枕叶区域突出,而最明显的 SSVEP 特征在枕叶区域。在线提示引导拼写和自由拼写结果表明,所提出的 BCI 系统对 216 个目标分类的平均准确率分别为 85.37% ± 7.49% 和 86.00% ± 5.98%,平均信息传输速率 (ITR) 分别为 302.83 ± 39.20 位分钟 -1 和 204.47 ± 37.56 位分钟 -1。值得注意的是,峰值 ITR 可达 367.83 位分钟 -1。意义。本研究开发了第一个超过 200 个目标的高速 BCI 系统,有望扩展 BCI 的应用场景。
摘要:在人工智能的时代,卷积神经网络(CNN)正在成为一种用于图像处理的强大技术,例如去核,超分辨率甚至样式转移。他们表现出很大的潜力,可以将下一代相机和展示带入我们的日常生活。但是,传统的CNN加速器很难在边缘生成超高分辨率视频,因为它们的大量急速带宽和功耗。例如,用于降级的高级FFDNET可能需要131 GB/s的DRAM带宽,而在4K UHD 30FPS处则需要106个计算顶部。在这次演讲中,我将介绍我们最近的两部作品,以应对DRAM带宽和功耗的挑战。首先,我将讨论图像处理CNN带来的图像二线革命并阐述其设计挑战;为了清楚起见,他们与识别CNN的差异将得到强调。然后,我将以整体方式介绍我们的第一份作品 - ECNN [Micro'19],共同优化推理流,网络模型,指令集和处理器设计。尤其是,具有面向硬件的ERNET模型的基于块的推理流可以支持FFDNET级DINOISING和SRRESNET级超分辨率,在4K UHD 30 FPS下使用小于2 GB/s的DRAM带宽。最后,我将介绍我们的第二件作品(ISCA'21],它利用了Ring Argebra的常规稀疏度,以实现近乎最大的硬件节省和优雅的卷积发动机质量降解。布局结果表明,可以分别使用3.76 W和2.22 W进行等效的41个高位计算,分别以40 nm的技术为50%(无质量下降)和75%和75%(PSNR下降的0.11 dB)。
直到最近,计算机系统的性能和功率效率才随着摩尔定律的扩展和 Dennard 缩放的晶体管效率的提高而稳步提高。然而,现在由于物理限制,设备缩放在性能和功率改进方面遇到了限制。为了在后摩尔和后 Dennard 时代继续生产快速且节能的计算机系统,计算机架构师和系统设计师正在朝着令人兴奋的新方向发展。一个方向是转向并行计算机架构和系统,包括多核和众核处理器、并行执行模型以及新的缓存一致性和内存一致性模型。另一个方向是整合异构和专用加速器,包括 GPU、TPU、FPGA、CGRA 和 ASIC。第三个方向是出现全新的硬件和软件系统,包括量子计算、基于 DNA 的计算机系统、神经形态计算和间歇性计算。本课程将首先回顾计算机设计的基本原理和指令集原理,然后研究当今计算机设计的基本原理,包括高级流水线、指令级并行、内存层次设计、存储系统、互连网络和多处理器。我们还将通过阅读和讨论研究论文、听取和发表技术演讲、在真实和模拟硬件上运行实验以及规划和开展学期研究项目来探索上述三个新方向。本课程将帮助学生为涉及高级计算机架构和系统方面的研究做好准备,或者为国家实验室或公司工作,开发或使用高级架构用于高性能计算、大规模数据分析或机器学习的应用。课程先决条件
摘要 — 低位宽量化神经网络 (QNN) 通过减少内存占用,支持在受限设备(如微控制器 (MCU))上部署复杂的机器学习模型。细粒度非对称量化(即,在张量基础上为权重和激活分配不同的位宽)是一种特别有趣的方案,可以在严格的内存约束下最大限度地提高准确性 [1]。然而,SoA 微处理器缺乏对子字节指令集架构 (ISA) 的支持,这使得很难在嵌入式 MCU 中充分利用这种极端量化范式。对子字节和非对称 QNN 的支持需要许多精度格式和大量的操作码空间。在这项工作中,我们使用基于状态的 SIMD 指令来解决这个问题:不是显式编码精度,而是在核心状态寄存器中动态设置每个操作数的精度。我们提出了一种基于开源 RI5CY 核心的新型 RISC-V ISA 核心 MPIC(混合精度推理核心)。我们的方法能够完全支持混合精度 QNN 推理,具有 292 种不同的操作数组合,精度为 16 位、8 位、4 位和 2 位,而无需添加任何额外的操作码或增加解码阶段的复杂性。我们的结果表明,与 RI5CY 上的基于软件的混合精度相比,MPIC 将性能和能效提高了 1.1-4.9 倍;与市售的 Cortex-M4 和 M7 微控制器相比,它的性能提高了 3.6-11.7 倍,效率提高了 41-155 倍。索引术语 —PULP 平台、嵌入式系统、深度神经网络、混合精度、微控制器
摘要 - 随着云服务,智能设备和IoT设备的使用指数级增长,高级网络攻击变得越来越复杂且无处不在。此外,计算体系结构和内存技术的快速演变已经迫切需要理解和适应硬件安全性漏洞。在本文中,我们回顾了当代计算系统中漏洞和缓解策略的当前状态。我们讨论缓存侧通道攻击(包括幽灵和崩溃),功率侧渠道攻击(例如简单功率分析,差异功率肛门,相关功率分析和模板攻击)以及电压毛病和电磁分析等先进技术,以帮助了解和建立强大的网络环境辩护系统和建立强大的网络抗性辩护系统。我们还研究记忆加密,重点是指示性,粒度,密钥管理,掩盖和重新接键策略。此外,我们涵盖了加密指导集架构,安全启动,信任机制的根,物理无统治功能和硬件故障注入技术。本文以对RISC-V架构独特的安全挑战的分析结束。本文提供的综合分析对于建立有弹性的硬件安全解决方案至关重要,这些解决方案可以在越来越具有挑战性的安全环境中保护当前和新兴的威胁。索引术语 - 硬件安全性,网络安全性,缓存侧通道,加密指令集扩展,故障输入,内存加密,电源分析攻击,RISC-V,安全启动,侧通道耐药设计,投机性执行
用于分解,搜索和仿真等任务的量子算法取决于控制流,例如分支和迭代,取决于叠加中数据的价值。用于控制流的高级编程抽象,例如开关,循环,高阶功能和连续性,在古典语言中无处不在。相比之下,许多量子语言不提供叠加中控制流的高级抽象,而需要使用硬件级逻辑门来实现此类控制流。此差距的原因是,尽管经典计算机使用可以取决于数据的程序计数器支持控制流摘要,但量子计算机的典型体系结构并不能类似地提供可以取决于叠加数据的程序计数器。结果,尚未在量子计算机上正确实现的完整控制流抽象集。在这项工作中,我们提供了控制流摘要的属性的完整表征,这些属性在量子计算机上正确实现。首先,我们证明,即使在量子计数器中存在的量子计算机上,也无法通过将经典的条件跳跃指令提升到叠加工作中的量子算法中的控制流。该定理否认能够直接提起控制流的一般抽象,例如𝜆钙从经典到量子编程。为了响应,我们提供了在量子计算机上正确实现的控制流的必要条件。我们介绍了量子控制机,这是一种指令集体系结构,其有条件跳跃的限制是满足这些条件的。我们展示了该设计如何使开发人员使用程序计数器代替逻辑门正确表达量子算法中的控制流。
模拟 I/O 6 通道 247 kSPS ADC 12 位分辨率 ADC 高速数据捕获模式 通过片上 DAC 可编程参考低电平输入,ADC 性能指定为 V REF = 1 V 双电压输出 DAC 12 位分辨率,15 µs 稳定时间 存储器 8 kbytes 片上 Flash/EE 程序存储器 640 byte 片上 Flash/EE 数据存储器 Flash/EE,100 年保留,100 kcycle 耐久性 3 级 Flash/EE 程序存储器安全性 在线串行下载(无需外部硬件) 256 byte 片上数据 RAM 基于 8051 的内核 8051 兼容指令集 32 kHz 外部晶振,片上可编程 PLL(最大 16.78 MHz) 三个 16 位定时器/计数器 11 条可编程 I/O 线 11 个中断源,2 个优先级 电源 指定用于 3 V 和 5 V 操作 正常:3 mA @ 3 V(内核 CLK = 2.1 MHz) 断电:15 µA(32 kHz 振荡器运行) 片上外设 上电复位电路(无需外部 POR 器件) 温度监视器(精度为 ±1.5°C) 精密电压参考 时间间隔计数器(唤醒/RTC 定时器) UART 串行 I/O SPI ® /I 2 C® 兼容串行 I/O 看门狗定时器 (WDT)、电源监视器 (PSM) 封装和温度范围 28 引脚 TSSOP 4.4 mm × 9.7 mm 封装 完全额定工作温度范围为 −40°C 至 +125°C 应用
摘要 本文介绍了量子计算机架构的定义和实现,以便创建新的计算设备——量子计算机作为加速器。要解决的一个关键问题是这种量子计算机是什么,以及它与控制整个执行过程的经典处理器有何关系。在本文中,我们明确提出了量子加速器的概念,它包含加速器的所有层。这种堆栈从描述加速器目标应用程序的最高级别开始。下一层抽象了量子逻辑,概述了要在量子加速器上执行的算法。在我们的案例中,逻辑以小组开发的通用量子-经典混合计算语言 OpenQL 来表达,该语言将量子处理器视为计算加速器。OpenQL 编译器将程序转换为通用汇编语言 cQASM,可在量子模拟器上执行。cQASM 表示可由量子加速器中实现的微架构执行的指令集。在后续步骤中,编译器可以转换 cQASM 以生成 eQASM,该 eQASM 可在包含特定平台参数的特定实验设备上执行。这样,我们就能清楚地区分实验研究以寻求更好的量子比特,以及需要在量子设备上开发和执行的工业和社会应用。第一种情况为实验物理学家提供了一个全栈实验平台,使用具有退相干和错误率的真实量子比特,而第二种情况为量子应用开发人员提供了完美的量子比特,其中既没有退相干也没有错误率。我们在文章的最后明确介绍了三个全栈量子加速器的示例,分别是实验超导处理器、量子加速基因组测序和基于量子启发式方法的近期通用优化问题。我们小组目前正在积极研究后两种全栈模型。
因式分解、搜索和模拟等任务的量子算法依赖于控制流,例如分支和迭代,这些控制流取决于叠加数据的值。控制流的高级编程抽象,例如开关、循环、高阶函数和延续,在经典语言中无处不在。相比之下,许多量子语言不提供叠加控制流的高级抽象,而是需要使用硬件级逻辑门来实现这种控制流。造成这种差距的原因是,虽然经典计算机使用可以依赖于数据的程序计数器来支持控制流抽象,但量子计算机的典型架构并不类似地提供可以依赖于叠加数据的程序计数器。因此,可以在量子计算机上正确实现的完整控制流抽象集尚未建立。在这项工作中,我们对可以在量子计算机上正确实现的控制流抽象的属性进行了完整的描述。首先,我们证明,即使在程序计数器处于叠加态的量子计算机上,也无法通过将经典条件跳转指令提升到叠加态来正确实现量子算法中的控制流。该定理否定了将控制流的一般抽象(例如 𝜆 演算)直接从经典编程提升到量子编程的能力。作为回应,我们提出了在量子计算机上正确实现控制流的必要和充分条件。我们引入了量子控制机,这是一种指令集架构,其条件跳转被限制为满足这些条件。我们展示了这种设计如何使开发人员能够使用程序计数器代替逻辑门来正确表达量子算法中的控制流。