多模态学习研究的核心在于有效利用多模态之间的融合表示。然而,现有的双向跨模态单向注意力只能利用从一个源到一个目标模态的模态间相互作用。在模态数量有限且交互方向固定的情况下,这确实无法释放多模态融合的全部表达能力。在本文中,提出了多路多模态变换器(MMT),通过单个块而不是多个堆叠的跨模态块同时探索每个模态的多路多模态互相关。MMT 的核心思想是多路多模态注意力,其中利用多种模态来计算多路注意张量。这自然有利于我们开发全面的多对多多模态交互路径。具体而言,多路张量由多个相互连接的模态感知核心张量组成,这些核心张量由模态内交互组成。此外,张量收缩操作用于研究不同核心张量之间的模态间依赖关系。本质上,我们基于张量的多路结构允许将 MMT 轻松扩展到与任意数量的模态相关的情况。以 MMT 为基础,进一步建立分层网络,以递归方式将低级多路多模态交互传输到高级交互。实验表明,MMT 可以实现最先进或相当的性能。
摘要:癫痫是神经系统的常见疾病,及时预测癫痫发作并进行干预治疗,可以大大减少患者的意外伤害,保障患者的生命健康。本文提出了一种神经形态脉冲卷积变换器,即Spiking Conformer,用于从头皮长程脑电图(EEG)记录中检测和预测癫痫发作片段。我们报告了使用波士顿儿童医院-麻省理工学院(CHB-MIT)EEG数据集对Spiking Conformer模型的评估结果。通过利用基于脉冲的加法运算,与非脉冲模型相比,Spiking Conformer显着降低了分类计算成本。此外,我们引入了一个近似脉冲神经元层,在不牺牲准确性的情况下进一步将脉冲触发的神经元更新减少近38%。使用原始 EEG 数据作为输入,提出的 Spiking Conformer 在癫痫发作检测任务中实现了 94.9% 的平均灵敏度和 99.3% 的特异性率,在癫痫发作预测任务中实现了 96.8% 的平均灵敏度和 89.5% 的特异性率,并且与非脉冲等效模型相比,所需的操作减少了 10 倍以上。索引术语 —EEG 数据、癫痫发作检测、癫痫发作预测、脉冲神经网络、Transformer。
学习多个参与者之间的时空关系对于群体活动识别至关重要。不同的群体活动通常会展示视频中参与者之间的多样化互动。因此,从时空参与者演化的单一视角来建模复杂的群体活动往往很困难。为了解决这个问题,我们提出了一个独特的双路径参与者交互 (Dual-AI) 框架,它以两种互补的顺序灵活地排列空间和时间变换器,通过整合不同时空路径的优点来增强参与者关系。此外,我们在 Dual-AI 的两个交互路径之间引入了一种新颖的多尺度参与者对比损失 (MAC-Loss)。通过帧和视频级别的自监督参与者一致性,MAC-Loss 可以有效区分单个参与者表示,以减少不同参与者之间的动作混淆。因此,我们的 Dual-AI 可以通过融合不同参与者的这些判别特征来增强群体活动识别。为了评估所提出的方法,我们在广泛使用的基准上进行了大量实验,包括排球 [ 21 ]、集体活动 [ 11 ] 和 NBA 数据集 [ 49 ]。所提出的 Dual-AI 在所有这些数据集上都实现了最佳性能。值得注意的是,所提出的 Dual-AI 使用 50% 的训练数据,其性能优于许多近期使用 100% 训练数据的方法。这证实了 Dual-AI 在群体活动识别方面的泛化能力,即使在有限监督的具有挑战性的场景下也是如此。
摘要 — 医学图像分析经常遇到数据稀缺的挑战。迁移学习在解决此问题的同时还节省了计算资源,是一种有效的方法。最近出现了一些基础模型,例如使用视觉变换器架构的 DINOv2,这为该领域开辟了新的机遇,并引起了人们的极大兴趣。但是,DINOv2 在临床数据上的表现仍需验证。在本文中,我们使用三种临床脑 MRI 数据模式执行了神经胶质瘤分级任务。我们在迁移学习环境中比较了各种预训练深度学习模型(包括基于 ImageNet 和 DINOv2 的模型)的性能。我们的重点是了解冻结机制对性能的影响。我们还在其他三种类型的公共数据集上验证了我们的发现:胸部 X 光检查、眼底 X 光检查和皮肤镜检查。我们的研究结果表明,在我们的临床数据集中,DINOv2 的性能不如基于 ImageNet 的预训练模型,而在公共数据集中,DINOv2 通常优于其他模型,尤其是在使用冻结机制时。在不同任务中,不同大小的 DINOv2 模型的性能相似。总之,DINOv2 适用于医学图像分类任务,特别是对于类似于自然图像的数据。然而,它的有效性可能会因与 MRI 等自然图像有显著差异的数据而有所不同。此外,采用较小版本的模型就足以完成医疗任务,从而节省资源。我们的代码可在 https://github.com/GuanghuiFU/medical dino eval 获得。
摘要 — 确定脑肿瘤的范围是脑癌治疗中的一项重大挑战。主要困难在于对肿瘤大小的近似检测。磁共振成像 (MRI) 已成为一种重要的诊断工具。然而,从 MRI 扫描中手动检测脑肿瘤的边界是一项劳动密集型任务,需要广泛的专业知识。深度学习和计算机辅助检测技术已导致机器学习在这方面取得了显着进步。在本文中,我们提出了一种改进的 You Only Look Once (YOLOv8) 模型来准确检测 MRI 图像中的肿瘤。所提出的模型用检测头中的实时检测变压器 (RT-DETR) 取代了非最大抑制 (NMS) 算法。NMS 会滤除检测到的肿瘤中的冗余或重叠的边界框,但它们是手工设计和预设的。RT-DETR 删除了手工设计的组件。第二项改进是通过用鬼卷积替换正常卷积块进行的。 Ghost Convolution 降低了计算和内存成本,同时保持了高精度并实现了更快的推理速度,使其成为资源受限环境和实时应用的理想选择。第三项改进是在 YOLOv8 的主干中引入视觉变换器模块来提取情境感知特征。我们在提出的模型中使用了公开的脑肿瘤数据集。所提出的模型比原始 YOLOv8 模型表现更好,也比其他物体检测器(Faster R-CNN、Mask R-CNN、YOLO、YOLOv3、YOLOv4、YOLOv5、SSD、RetinaNet、EfficientDet 和 DETR)表现更好。所提出的模型实现了 0.91 mAP(平均精度)@0.5。
有效的探索对于在复杂的协调任务中发现多智能体强化学习 (MARL) 的最优策略至关重要。现有的方法主要利用内在奖励来实现承诺性探索,或者使用基于角色的学习来分解联合动作空间,而不是直接在整个动作观察空间中进行集体搜索。然而,它们在获取特定的联合动作序列以在长期任务中达到成功状态时经常面临挑战。为了解决这一限制,我们提出了想象、初始化和探索 (IIE),这是一种新颖的方法,为复杂场景中的高效多智能体探索提供了一种有前途的解决方案。IIE 采用变换器模型来想象智能体如何达到可以影响彼此转换函数的临界状态。然后,我们在探索阶段之前使用模拟器初始化此状态下的环境。我们将想象表述为序列建模问题,其中状态、观察、提示、动作和奖励是自回归预测的。该提示由剩余时间步长、剩余返回值、影响力值和一次性演示组成,用于指定期望状态和轨迹并指导动作生成。通过在关键状态下初始化智能体,IIE 显著提高了发现潜在重要且未被充分探索区域的可能性。尽管方法简单,但实证结果表明,我们的方法在星际争霸多智能体挑战赛 (SMAC) 和 SMACv2 环境中的表现优于多智能体探索基线。尤其值得一提的是,与其他生成方法(例如 CVAE-GAN 和扩散模型)相比,IIE 在稀疏奖励 SMAC 任务中表现出色,并且在初始化状态下生成了更有效的课程。
・耐振 Unireg 基本结构模块的原型以及励磁环境下的发电运行验证(正弦波 33 Hz,最大加速度 5 G)(励磁环境条件为 JIS 汽车零部件的耐振要求)・模块功率在上述振动环境下的发电耐久性为100小时以上 ・抗振模块结构及相关外围技术的知识产权申请 此外,从2017年度起,上述目标2决定验证激励环境(33和67 Hz正弦波,最大加速度5和10 G)下的发电操作。 为了实现这些目标,我们将采取以下举措。 ① 提高环境负荷低的Mg 2 Si热电发电材料的热耐久性 申请人之前的努力表明,Mg 2 Si材料本身即使在600℃下3000小时或更长时间后也能保持发电元件的电阻值。气氛稳定。这项委托工作将确保模块结构的耐用性,这在将其引入热电池时是必要的。 ②开发针对发电优化的高耐用新型Unireg结构模块在本次委托工作中,Mg 2 Si热电材料具有基础热电发电能力高、热电材料中重量最轻、环境影响低等特点。为此,我们将采用unireg型热电发电模块结构,该结构只能由n型半导体Mg 2 Si构成。 ③ 在发电环境下使用振动试验机评价接近实际环境的发电特性汽车零部件一般要求水平的振动环境(JIS所示的汽车零部件耐振动环境:正弦波加速度5G、33Hz) )保证发电模块的耐用性。 B.热电池DC-DC功率变换器实际应用的基础技术本项目的目标如下。 目标1:热电发电模块专用电容堆积式DC-DC转换器的转换效率达到80%
背景:基于 Transformer 的模型在医学成像和癌症成像应用中越来越受欢迎。许多最近的研究表明,基于 Transformer 的模型可用于脑癌成像应用,例如诊断和肿瘤分割。目的:本研究旨在回顾不同的视觉变换器 (ViT) 如何有助于利用脑图像数据推进脑癌诊断和肿瘤分割。本研究考察了为增强脑肿瘤分割任务而开发的不同架构。此外,它还探讨了基于 ViT 的模型如何增强卷积神经网络在脑癌成像中的性能。方法:本综述按照 PRISMA-ScR(系统评价和荟萃分析扩展范围界定综述的首选报告项目)指南进行研究搜索和研究选择。搜索包括 4 个流行的科学数据库:PubMed、Scopus、IEEE Xplore 和 Google Scholar。搜索词的制定涵盖了干预措施(即 ViT)和目标应用(即脑癌成像)。研究选择的标题和摘要由 2 名审阅者独立完成,并由第三名审阅者验证。数据提取由 2 名审阅者完成,并由第三名审阅者验证。最后,使用叙述方法合成数据。结果:在检索到的 736 项研究中,有 22 项(3%)被纳入本综述。这些研究发表于 2021 年和 2022 年。这些研究中最常见的任务是使用 ViT 进行肿瘤分割。没有研究报告早期发现脑癌。在不同的 ViT 架构中,基于移位窗口变压器的架构最近成为研究界最受欢迎的选择。在所包含的架构中,UNet transformer 和 TransUNet 具有最多的参数,因此需要多达 8 个图形处理单元的集群进行模型训练。脑肿瘤分割挑战数据集是所包含研究中使用的最流行的数据集。ViT 与卷积神经网络以不同的组合使用,以捕获输入脑成像数据的全局和局部背景。结论:可以说,Transformer 架构的计算复杂性是推动该领域发展和实现临床转化的瓶颈。本综述提供了有关该主题的当前知识状态,本综述的结果将有助于医学人工智能及其在脑癌应用领域的研究人员。
构建能够从多种感官输入(例如文本、语音、视频、现实世界的传感器、可穿戴设备和医疗数据)中学习的多感官人工智能系统有望对许多科学领域产生影响并带来实际好处,例如支持人类健康和福祉、实现多媒体内容处理以及增强现实世界的自主代理。然而,多模态研究进展的广度使得很难确定该领域的共同主题和悬而未决的问题。通过综合一系列理论框架和应用领域,本论文旨在推进多模态机器学习的基础。我们首先定义多模态问题中经常出现的三个关键原则:模态异质性、连接和交互[371]。以这些原则为基础,我们提出了多模态研究中六个核心挑战的分类:表示、对齐、推理、生成、转移和量化。我们将通过这种分类法介绍最新的技术成果,使研究人员能够了解不同方法之间的异同,并确定未来研究的开放问题。本论文的主要内容涵盖了我们在解决多模态学习中的两个关键问题方面的最新进展:多模态交互的机器学习基础,以及构建可推广到现实世界中许多模态和任务的多感官基础模型的实用方法。在第一部分,我们研究多模态交互的基础:模态如何结合起来为某项任务产生新信息的基本原理。我们提出了一个理论框架,形式化了模态如何相互作用从而为某项任务产生新信息,例如从口语单词和声音表达之间的不一致中识别出的讽刺 [372]。利用这个理论框架,我们提出了两个实用的估计量来量化现实世界数据集中的交互。量化多模态任务所需的交互类型,使研究人员能够决定收集哪种模态[376],设计合适的方法来学习这些交互[374],并分析他们的模型是否成功学习[375]。在第二部分中,我们研究了实用的多模态基础模型的设计,这些模型可以推广到许多模态和任务,这为将大型语言模型应用到现实世界的感知模态迈出了一步。我们首先介绍 M ULTI B ENCH,这是一个统一的大规模基准,涵盖了广泛的模态、任务和研究领域[367]。我们还将介绍跨模态注意[101,359]和多模态变换器[613]架构,它们现在是许多当今多模态基础模型的基础。在 M ULTI B ENCH 上扩展这些架构,可以创建跨各种任务的通用多模态多任务模型,我们与实践者进行了广泛合作,将这些模型应用于情感计算、心理健康和癌症预后等现实世界的影响。我们通过讨论未来的工作如何利用这些想法实现更通用、互动性更强、更安全的多模态人工智能来结束这篇论文。
单元 1:放大器 16 小时 多级放大器:多级放大器的需求和使用、总增益、级联与共源共栅。RC 耦合放大器。达林顿放大器 - 电路、电流增益、Zi、Zo、优点。功率放大器:电压与功率放大器、功率放大器的需求、分类 A 类、C 类(仅提及)B 类:推挽放大器、工作、效率(推导)、交叉失真、谐波失真、互补对称(无变压器)。比较。调谐放大器:需要单调谐和双调谐、工作、频率响应曲线、优点和缺点、耦合说明。JFET - 类型 - p 沟道和 n 沟道、工作和 IV 特性 - n 沟道 JFET、参数及其关系、BJT 和 JFET 的比较。共源放大器、MOSFET:E&D、MOSFET – n 沟道和 p 沟道、构造、工作、符号、偏置、漏极和传输特性、CMOS 逻辑、CMOS 反相器 - 电路、工作和特性。单元 2:反馈放大器和振荡器 10 小时反馈:反馈类型正反馈和负反馈、框图、反馈对 Av、BW、Zi 和 Zo 的影响(仅适用于电压串联反馈放大器电路)。振荡器的需求;正反馈、储能电路 – 振荡、谐振频率。巴克豪森振荡准则、LC 调谐振荡器 - Colpitts 和 Hartley 振荡器、振荡频率(无推导)、最小增益、优点和缺点、RC 振荡器 - 相移和 Wein 桥振荡器(无推导)、频率和最小增益、晶体振荡器、压电效应、等效电路、串联和并联谐振电路、Q 因子。非正弦振荡器:非稳态多谐振荡器,工作波形,频率公式(仅提及),单稳态多谐振荡器,双稳态多谐振荡器(触发器概念)。 单元 3:集成电路 04 小时 IC555 框图和引脚图。 IC555 应用 - 非稳态(推导)和单稳态多谐振荡器,压控振荡器。 施密特触发器。 IC 稳压器:LM317,IC78XX,79XX 系列(框图) 单元 4:运算放大器(Op-Amp) - 理论与应用 11 小时 Op-Amp 框图,引脚图 IC741,规格,理想和实际运算放大器参数的特性 - 输入偏置电流,输入失调电压,输出失调电压,CMRR,斜率 SVRR,失调零,开环运算放大器限制,闭环运算放大器。负串联反馈放大器的框图,反相和非反相反馈电路,增益,R if ,R of 。虚拟接地,单位增益带宽积。应用:加法器 - 反相和非反相,减法器,比例变换器,缓冲器,积分器,微分器(理想和实用)。比较器,过零检测器,有源滤波器 - 巴特沃斯一阶低通、高通、带通、带阻、全通滤波器。二阶滤波器(仅提及)。自学:04 小时 IC 制造技术。推荐教科书 1、运算放大器和线性电路,Ramakanth Gayakwad PHI,第 5 版,2015 年。2. 应用电子学教科书,RS Sedha