我们更进一步考虑学习神经网络分类的问题。在信息瓶颈 (IB) 原则下,我们将这个分类问题与表示学习问题联系起来,我们称之为“IB 学习”。我们表明,IB 学习实际上等同于量化问题的一个特殊类别。率失真理论的经典结果表明,IB 学习可以受益于“矢量量化”方法,即同时学习多个输入对象的表示。这种方法辅以一些变分技术,产生了一种用于使用神经网络模型进行分类的新颖学习框架“聚合学习”。在这个框架中,多个对象由单个神经网络联合分类。通过在标准图像识别和文本分类任务上的大量实验验证了该框架的有效性。
由于具有二进制和事件驱动架构,脉冲神经网络 (SNN) 在节能神经形态芯片方面具有巨大潜力。SNN 主要用于分类任务,但在图像生成任务方面的探索有限。为了填补这一空白,我们提出了一种脉冲扩散模型,该模型基于矢量量化离散扩散模型。首先,我们开发了一个带有 SNN 的矢量量化变分自动编码器 (VQ-SVAE) 来学习图像的离散潜在空间。在 VQ-SVAE 中,使用脉冲发放率和突触后电位对图像特征进行编码,并设计了一个自适应脉冲生成器来以脉冲序列的形式恢复嵌入特征。接下来,我们在离散潜在空间中执行吸收态扩散,并构建一个带有 SNN 的脉冲扩散图像解码器 (SDID) 来对图像进行去噪。我们的工作是第一个完全从 SNN 层构建扩散模型的工作。在 MNIST、FMNIST、KMNIST、Letters 和 Cifar10 上的实验结果表明,Spiking-Diffusion 优于现有的基于 SNN 的生成模型。我们在上述数据集上分别实现了 37.50、91.98、59.23、67.41 和 120.5 的 FID,与最先进的工作相比,FID 减少了 58.60%、18.75%、64.51%、29.75% 和 44.88%。我们的代码将在 https://github.com/Arktis2022/Spiking-Diffusion 上提供。
最多 6 张光盘,数小时的音乐播放,让您的生活更精彩 音乐爱好者欢欣鼓舞!那些希望从发烧级组件中获得终极 CD 播放效果的人会对高精度 VQA(矢量量化音频 DAC 技术)和 128 倍过采样印象深刻。其他追求便利性的人会对 6 张光盘容量、6 种重复模式、40 首曲目编程感到兴奋,并且无需担心音乐中断,能够在播放最后一张光盘时更换 5 张光盘。所有人都会惊叹于清晰的播放效果,我们的独家 VLSC(矢量线性整形电路)可增强音频信号,并提供直接数字路径,这是一种屏蔽性极强的高质量电缆,可保护同样脆弱的音频信号免受周围电路发出的噪音的影响。DX-C390 外壳坚固,配有拉丝铝前面板,可为您提供数小时不间断的音乐,为您的生活增添色彩。
在手语制作(SLP)任务中,一种常见的方法是具有独立的手语单词,然后将其运动表示形式串联以形成完整的句子。然而,由于中间缺少框架,该过程构成了挑战,这导致突然过渡并降低平滑度,从而使结果序列难以解释。为了解决此问题,本文介绍了一个量化的矢量量化变异自动编码器(RVQVAE)模型,用于在视频中插值2D关键点运动。我们的实验通过在视频关键点序列中随机隐藏一组帧来模拟单个符号转变。通过将其性能与隐藏帧的基线方法进行比较,可以评估所提出的模型。矩阵距离误差和动态时盘指标的改进表明,RVQVAE模型可为生成中间帧产生有希望的结果。这些发现突出了开发应用程序的潜力,以增强手语的生产以使聋人社区受益。
摘要 人工智能 (AI) 是一门拥有数十年历史的学科,由于取得了惊人的进展,解决了几年前无法想象的问题,例如文本、图像和视频的生成模型,人工智能正迎来黄金时代。人工智能的广泛应用也已进入物理学领域,为瓶颈问题提供解决方案,例如无法解决某些问题或耗时极长的数值方法、量子实验的优化或量子比特控制。此外,量子计算已成为加速人工智能计算的极佳方法,尤其是在数据驱动的人工智能即机器学习 (ML) 的情况下。量子机器学习 (Quantum ML) 一词已经广为人知,涉及量子计算机或量子退火器中的学习、经典机器学习模型的量子版本以及用于量子测量和控制的不同学习方法。量子人工智能 (QAI) 试图向前迈出一步,提出颠覆性的概念,例如人机量子计算机界面、量子计算机中的情感分析或量子计算的可解释性等。本次特别会议包括五篇有关相关主题的高质量论文,例如量子强化学习、量子计算并行化、量子特征选择和量子矢量量化,从而捕捉了 QAI 中方法的丰富性和多样性。
摘要:本文收集了两种类型的医学图像,它们来自 CT 扫描和超声系统,目的是在保持图像质量的情况下减少表示医学图像所需的位数。医学成像对疾病诊断和手术准备有很大影响。另一方面,由于医学图像数据量巨大,存储和传输是一个重要问题。例如,每张 CT 图像切片为 512 x 512,数据集由 200 到 400 张图像组成,平均数据量为 150 MB。对医学数据进行有效压缩可以解决存储和传输问题。医学图像使用提出的算法进行压缩,该算法包括两种技术,即离散余弦变换 DCT 和矢量量化 VQ。本文从收集医学图像开始,使用 MATLAB 通过 DCT-QV 开发压缩算法,并通过使用峰值信噪比 PSNR、均方误差 MSE、压缩比 CR 和每像素比特 BPP 测量原始图像和压缩图像之间的差异来评估这些技术的性能。实验结果表明,所提算法压缩后的图像质量较高,量化水平达到30%以上,压缩率达到可接受水平。
摘要:最近,使用脑电图 (EEG) 进行音频信号处理中的模式识别引起了广泛关注。眼部情况(睁眼或闭眼)的变化反映在 EEG 数据的不同模式中,这些数据是从一系列情况和动作中收集的。因此,从这些信号中提取其他信息的准确性在很大程度上取决于在采集 EEG 信号期间对眼部情况的预测。在本文中,我们使用深度学习矢量量化 (DLVQ) 和前馈人工神经网络 (F-FANN) 技术来识别眼部情况。由于 DLVQ 能够学习代码约束的码本,因此在分类问题上优于传统 VQ。在使用 k 均值 VQ 方法初始化后,DLVQ 在 EEG 音频信息检索任务上测试时表现出非常出色的性能,而 F-FANN 将眼部状态的 EEG 音频信号分类为睁眼或闭眼。与 F-FANN 相比,DLVQ 模型具有更高的分类准确度、更高的 F 分数、精确度和召回率,以及更出色的分类能力。
摘要 扩散 MRI 纤维追踪数据集可以包含数百万条 3D 流线,它们的表示可能需要数十 GB 的内存。这些流线集称为纤维追踪图,通常用于临床操作或研究。它们的大小使得它们难以存储、可视化、处理或通过网络交换。我们利用通常的追踪算法获取流线的方式,提出了一种非常适合纤维追踪图的新压缩算法。我们的方法基于单位矢量量化方法与空间变换相结合,可实现较低的压缩和解压缩时间以及较高的压缩比。例如,11.5 GB 的纤维追踪图可以压缩为 1.02 GB 的文件,并在 11.3 秒内解压缩。此外,我们的方法允许压缩和解压缩单个流线,从而无需在处理繁重数据集时使用昂贵的核外算法。最后,我们开辟了一条实时压缩和解压缩的方法,用于处理更大的数据集,而无需大量 RAM(即核心处理)、更快的网络交换和更快的可视化或处理加载时间。
这项研究的目的是证明使用深度学习模型在定量评估临床发现中通常会根据常规方案使用二进制测试结果进行二进制测试结果。胸部X射线是用于检测多种疾病的最常用的诊断工具,通常是定期检查的一部分。然而,当涉及可以限制为正常范围内但不被视为与疾病有关的发现时,医师发现的阈值可能会有所不同,因此有必要定义一种新的评估方法并量化它。这种方法的实施在时间和劳动方面都是困难而昂贵的。在这项研究中,总共使用83,005张胸部X射线图像来诊断胸膜增厚和脊柱侧弯的常见发现。一种新颖的方法,用于评估医生判断图像以使这些发现的可能性的概率。所提出的方法成功地使用了仅在二进制注释数据上训练的深度学习模型,成功地量化了Physicians的发现的变化。还证明,使用卷积神经网络进行一般图像分析以及基于矢量量化变异自动编码器的新知识的深度学习模型,可以将开发的方法应用于转移学习,其高相关性高0.89至0.97。