摘要 — 药物分子的从头设计被认为是一个耗时且昂贵的过程,并且计算方法已应用于药物发现流程的每个阶段。变分自动编码器是一种计算机辅助设计方法,它基于现有的分子数据集探索化学空间。量子机器学习已成为一种非典型学习方法,由于其强大的表达能力,可能会加速一些经典学习任务。然而,近期的量子计算机受到量子比特数量有限的困扰,这阻碍了高维空间中的表示学习。我们提出了一种可扩展的量子生成自动编码器(SQ-VAE),用于同时重建和采样药物分子,以及相应的原始变体(SQ-AE)以实现更好的重建。提出了混合量子经典网络中的架构策略,例如可调量子层深度、异构学习率和修补量子电路,以学习高维数据集,例如配体靶向药物。在选择合适的架构策略后,针对 8x8 和 32x32 等不同维度报告了大量实验结果。在所有实验中,将量子生成自动编码器的性能与相应的经典自动编码器进行了比较。结果表明,归一化的低维分子可以获得量子计算优势,并且量子生成自动编码器生成的高维分子在相同的学习期内具有更好的药物特性。索引术语 — 量子机器学习、变分自动编码器、药物发现
由于数据集较小且难以获取标签,使用机器学习从 EEG 等生物信号中解码信息一直是一项挑战。我们提出了一种基于重建的自监督学习模型,即 EEG 的掩蔽自动编码器 (MAEEG),通过学习使用 Transformer 架构重建掩蔽的 EEG 特征来学习 EEG 表示。我们发现,当仅给出少量标签时,MAEEG 可以学习显着改善睡眠阶段分类的表示(准确率提高约 5%)。我们还发现,基于重建的 SSL 预训练期间的输入样本长度和不同的掩蔽方式对下游模型性能有很大影响。具体而言,学习重建更大比例和更集中的掩蔽信号可带来更好的睡眠分类性能。我们的研究结果深入了解了基于重建的 SSL 如何帮助 EEG 的表征学习。
摘要 - 常规体内神经信号处理涉及从神经元合奏中记录的信号内提取尖峰活动,并且仅在足够的间隔上传输尖峰。但是,对于使用连续的局部场势(LFP)进行认知解码的脑部计算机界面(BCI)应用,将传输到计算机的神经数据的体积施加了相对较高的数据速率要求。对于使用具有数百或数千电极的高密度内部记录的BCI尤其如此。本文介绍了第一个基于自动编码器的压缩数字电路,用于LFP神经信号的有效传输。实施了各种拟南芥和架构级优化,以显着降低设计In In Vivo压缩电路的计算复杂性和内存需求。该电路采用基于自动编码器的神经网络,提供了强大的信号重建。体内压缩逻辑的应用特异性集成电路(ASIC)占据了最小的硅区域,并且在报告的最先进的压缩ASIC中消耗了最低功率。此外,它提供了更高的压缩率和较高的信噪比和失真率。
swath(1.4 km)。此外,凭借其太阳同步轨道,Cloudsat在同一当地时间经过赤道,将观察结果限制为在一天中的特定时间内“快照”。相比之下,成像仪器在更广泛的视野和更高的时间分辨率上进行测量,但它们仅提供“自上而下”的视角,并且不会直接测量大气曲线。但是,将不同光谱通道中的图像与大气轮廓重叠的测量结合在一起,可以推断雷达轨道以外的垂直轮廓。Barker等。[3,4]通过强度像素匹配,开发了一种将地球保健曲线扩展到3D的算法。最近的工作[5,6,7]使用了基于ML的方法(例如U-NET,CGAN,线性回归,随机森林,XGBoost),以从“自上而下”的测量中估算垂直云信息。特别是Brüning等人。[5]从MeteoSat第二代(MSG)旋转增强的可见和红外成像仪(Seviri)的卫星图像进行了训练,并具有Cloudsat Cloud Cloud Radar(CPR)反射率,重建3D云结构。对于所有方法,模型训练需要数据源之间的精确空间和时间对齐。由于雷达卫星的立交桥有限(图1b),轮廓测量值少于可用的图像(为了进行比较,MSG/Seviri每年产生40 TB的图像数据,而CPR每年产生150 GB)。然后,我们使用匹配的图像profile对进行了3D云重建任务的预训练模型。自我监督学习(SSL)的最新进展(SSL)在大型未标记数据集的训练前模型中表现出了希望,但它们在云研究中的应用仍然不足。在这项工作中,我们将SSL方法(MAE,MAE,[8])和GeoSpatemance Authewawe AutoCododers(基于Satmae,[9])应用于2010年的多光谱MSG/SEVIRI数据。我们的结果表明,预训练始终提高此任务的性能,尤其是在热带对流带等复杂地区。具有地理空间意识的预训练模型(即时间和坐标编码),尤其是胜过随机初始化的网络和更简单的U-NET体系结构,从而改善了重建结果。该代码将在接受后提供。
动机:抑制剂 - 激酶结合亲和力的准确预测对于药物发现和医疗应用至关重要,尤其是在治疗诸如癌症之类的疾病中。现有的预测抑制剂 - 激酶亲和力的方法仍然面临挑战,包括数据表达不足,功能提取有限和性能低。尽管通过人工智能(AI)方法(尤其是深度学习技术)取得了进展,但许多当前的方法未能捕获激酶与抑制剂之间的复杂相互作用。因此,有必要开发更先进的方法来解决抑制剂 - 激酶结合预测中的现有问题。结果:这项研究提出了Kinhibhib,这是抑制剂 - 激酶结合亲和力预测指标的新型框架。kinhibit会整合自我监督的预训练的预训练的分子编码器和蛋白质语言模型(ESM-S),以有效提取特征。kinhibit还采用特征融合方法来优化抑制剂和激酶特征的融合。实验结果证明了这种方法的优越性,在三种MAPK信号途径激酶的抑制剂预测任务中,精度达到了92.6%的精度:RAF蛋白激酶(RAF),有丝分裂原激活的蛋白激活蛋白激酶激酶激酶(MEK)和细胞外信号调节激酶(ERK)。此外,该框架在包含200多个激酶的数据集上达到了令人印象深刻的精度。这项研究为药物筛查和生物科学提供了有希望的有效的工具。
病理性脑损伤在脑图像中呈现出不同的外观,由于缺乏全面的数据和注释,很难训练监督检测解决方案。因此,在这项工作中,我们解决了无监督异常检测问题,仅使用健康数据进行训练,目的是在测试时检测未见的异常。许多当前方法采用具有限制性架构(即包含信息瓶颈)的自动编码器,这些自动编码器不仅会对异常部分进行不良重建,而且会对正常部分进行不良重建。相反,我们研究了经典的去噪自动编码器模型,这些模型不需要瓶颈,并且可以使用跳过连接来提供高分辨率保真度。我们设计了一种简单的噪声生成方法来升级低分辨率噪声,从而实现高质量的重建。我们发现,通过适当的噪声生成,去噪自动编码器重建误差可以推广到高强度病变分割,并达到脑 MRI 数据中无监督肿瘤检测的最新性能,击败了变分自动编码器等更复杂的方法。我们相信这为进一步研究无监督异常检测提供了强大且易于实施的基础。关键词:异常检测、无监督学习、自动编码器、去噪、MRI。
创新的神经网络架构不断涌现,旨在解决有趣的问题 [1]–[3]。当人们专注于学习表示时,这类模型提供了一定的多功能性 [4]。有趣的是,人们往往更喜欢无监督方法,以消除可能引入的、可能不想要的标签偏见。这项研究基于经典的自动编码器架构,并结合了一种新颖的量子变分方法。自动编码器 (AE) 被认为是一种无监督学习模型,它使用神经网络重建输入信号 [5]。AE 因其一些成功的版本而闻名,包括变分自动编码器 (VAE) [6] 和去噪 AE [7], [8]。特别是密集 AE,已被证明在学习数据表示(通常经过压缩)方面非常强大,同时保留了大部分信息 [9]。近年来,营销研究人员对利用机器学习的兴趣日益浓厚。与传统的统计和计量经济学方法相比,机器学习方法可以处理大规模数据、非结构化数据,具有灵活的模型结构并能产生更好的预测。自动编码器开始用于从营销环境中的复杂数据中生成有意义的描述,例如消费者社交网络或消费者产品网络[10]。分析大规模网络的方法论挑战在于高维性。最近一项关于 Facebook 用户参与数据中的用户-品牌网络的研究使用深度自动编码器进行嵌入,并表明品牌的市场结构比标准行业分类所建议的更具流动性和重叠性[11]。此外,变分自动编码器已被开发用于
摘要 - 脑启发的高维(HD)计算是一种新的计算范式,可以模仿高维空间中神经元的活性。HD计算中的第一个步骤是将每个数据点映射到高维空间(例如10,000)中,该空间需要计算原始域中每个数据元素的数千个操作。单独编码大约需要培训执行时间的80%。在本文中,我们提出,REHD,用于HD Computing中的编码,培训和推断的整个重做,以实现更硬件友好的实现。REHD包括用于HD计算的完全二进制编码模块,用于能量良好和高智能分类。我们基于随机投影的编码模块可以在硬件中有效地实现可预测的内存访问模式。REHD是第一个基于HD的方法,它提供了与原始数据1:1比率的数据投影,并启用使用二进制HyperVector进行所有培训/推理计算。在优化后,重新添加了编码过程,重新培训和推断成为HD计算的能源密集型部分。为解决此问题,我们还提出了模型量化。模型量化引入了一种新型的方法,该方法是使用n位存储类高量向量的方法,其中n范围为1至32,而不是以完整的32位精度,从而可以在能量效率和准确性之间进行折衷的细节调整。为了进一步提高REHD效率,我们开发了一种在线尺寸缩小方法,可以消除训练期间无效的高度向量维度。
摘要近年来,多室模型被广泛用于尝试从扩散磁共振成像 (dMRI) 数据中表征脑组织微观结构。这种方法的主要缺点之一是需要先验决定微观结构特征的数量,并将其嵌入模型定义中。然而,在给定采集方案的情况下可以从 dMRI 数据中获得的微观结构特征数量仍然不清楚。在这项工作中,我们旨在使用自动编码器神经网络结合旋转不变特征来表征脑组织。通过改变自动编码器潜在空间中的神经元数量,我们可以有效地控制从数据中获得的微观结构特征的数量。通过将自动编码器重建误差绘制到特征数量,我们能够找到数据保真度和微观结构特征数量之间的最佳权衡。我们的结果显示了该数字如何受到壳层数量和用于采样 dMRI 信号的 b 值的影响。我们还展示了我们的技术如何为更丰富地表征体内脑组织微观结构铺平道路。
我们研究了特定于视频的自动编码器,这些自动编码器允许人类用户探索,编辑和有效传输视频。先前的工作已经独立研究了这些问题(和子问题),并提出了不同的表述。在这项工作中,我们在特定视频的多个帧上训练一个简单的自动编码器(从头开始)。我们观察到:(1)通过视频特定的自动编码器捕获该视频的空间和时间属性所学的潜在代码; (2)自动编码器可以将样本外输入投影到特定于视频的歧管上。这两个属性允许我们使用一个学到的表示形式探索,编辑和有效地传输视频。对于例如,在潜在代码上的线性操作允许用户可视化视频的内容。关联视频的潜在代码和流动投影使用户可以进行所需的编辑。插值潜在代码和歧管投影允许在网络上传输稀疏的低分辨率框架。