我们考虑香农相对熵的扩展,称为 f -散度。三个经典的相关计算问题通常与这些散度有关:(a) 根据矩进行估计,(b) 计算正则化积分,和 (c) 概率模型中的变分推断。这些问题通过凸对偶相互关联,并且对于所有这些问题,在整个数据科学中都有许多应用,我们的目标是计算上可处理的近似算法,这些算法可以保留原始问题的属性,例如潜在凸性或单调性。为了实现这一点,我们推导出一系列凸松弛,用于从与给定特征向量相关的非中心协方差矩阵计算这些散度:从通常不易处理的最佳下限开始,我们考虑基于“平方和”的额外松弛,现在它可以作为半定程序在多项式时间内计算。我们还基于来自量子信息理论的谱信息散度提供了计算效率更高的松弛。对于上述所有任务,除了提出新的松弛之外,我们还推导出易于处理的凸优化算法,并给出了多元三角多项式和布尔超立方体上的函数的说明。
热蛋白质组分析 (TPP) 和高通量蛋白质组整体溶解度变化 (PISA) 检测等高通量技术的进步彻底改变了我们对药物-蛋白质相互作用的理解。尽管有这些创新,但缺乏用于对稳定性和溶解度变化数据进行交叉研究分析的综合平台,这是一个重大瓶颈。为了解决这一差距,我们推出了 DORSSAA(基于稳定性/溶解度变化检测的药物-靶标相互作用组学资源),这是一个交互式且可扩展的基于网络的平台,用于系统分析和可视化蛋白质组稳定性和溶解度变化检测数据集。目前,DORSSAA 拥有 480,456 条记录,涵盖 37 种细胞系和生物体、39 种化合物和 40,004 个潜在蛋白质靶标。通过其用户友好的界面,该资源支持比较药物-蛋白质相互作用分析并促进可操作治疗靶标的发现。我们利用白血病细胞系联合治疗中 DHFR-甲氨蝶呤相互作用和药物-靶标相互作用的两个案例研究,证明了 DORSSAA 在跨实验条件识别蛋白质-药物相互作用方面的实用性。该资源使研究人员能够加速药物发现并增强我们对蛋白质行为的理解。
热蛋白质组分析 (TPP) 和蛋白质组整体溶解度变化 (PISA) 等高通量技术的进步彻底改变了我们对药物-蛋白质相互作用的理解。尽管有这些创新,但缺乏用于对稳定性和溶解度变化数据进行交叉研究分析的综合平台,这是一个重大瓶颈。为了解决这一差距,我们推出了 DORSSAA(基于稳定性/溶解度变化分析的药物靶标相互作用组学资源),这是一个基于网络的交互式平台,用于系统分析和可视化蛋白质组稳定性和溶解度变化分析数据集。DORSSAA 拥有 480,456 条记录,涵盖 37 种细胞系和生物体、39 种化合物和 40,004 个潜在蛋白质靶标。通过其用户友好的界面,该资源支持比较药物-蛋白质相互作用分析并促进可操作治疗靶标的发现。我们通过白血病细胞系联合治疗中 DHFR-甲氨蝶呤相互作用和药物-靶标相互作用的两个案例研究,证明了 DORSSAA 在跨实验条件识别蛋白质-药物相互作用方面的实用性。该资源使研究人员能够加速药物发现并增强我们对蛋白质行为的理解。
摘要。疾病进展模型对于理解退行性疾病至关重要。混合效应模型一直用于模拟临床评估或从医学图像中提取的生物标志物,允许在任何时间点进行缺失数据的填补和预测。然而,这种进展模型很少用于整个医学图像。在这项工作中,变分自动编码器与时间线性混合效应模型相结合,以学习数据的潜在表示,使得各个轨迹随时间遵循直线,并以一些可解释的参数为特征。设计了一个蒙特卡罗估计器来迭代优化网络和统计模型。我们将此方法应用于合成数据集,以说明时间依赖性变化与受试者间变异性之间的分离,以及该方法的预测能力。然后,我们将其应用于来自阿尔茨海默病神经影像计划 (ADNI) 的 3D MRI 和 FDG-PET 数据,以恢复大脑结构和代谢改变的详细模式。
基因组中包含的信息对于我们植物病理学家来说是一座金矿,使我们能够改进诊断方法并寻找与流行病学和植物-微生物相互作用有关的特征,以及它们背后的进化过程。2022 年是《自然》杂志上发表的前两个黄单胞菌全基因组序列(da Silva 等人,2002 年)的 20 周年。十年后,我加入了黄单胞菌社区,致力于宿主适应性研究,这篇出版物是我阅读的第一篇黄单胞菌论文之一。这项工作的一个核心方面是比较两种黄单胞菌致病变种,即柑橘致病菌黄单胞菌和油菜致病菌黄单胞菌,它们分别对柑橘和十字花科植物具有致病性。这种方法使作者能够识别菌株特异性基因并提出可能解释不同宿主特异性和致病过程的机制,这是我们社区中的两个热点问题(Harris 等人,2020 年;Jacques 等人,2016 年)。这种比较基因组学分析在许多方面都具有开创性,下一个黄单胞菌基因组花了三年多的时间才发表。几年后,随着越来越快、越来越便宜的测序技术的出现,全基因组测序“民主化”了(Zhao & Grant,2011 年),很快导致每年发布几十个,然后是几百个黄单胞菌基因组序列(图 1)。
加速突变分析工作流程。This diagram illustrates the integration of NVIDIA Parabricks (a GPU-accelerated genomics toolkit) and GATK4 (Genome Analysis Toolkit version 4) with open-source workflow frameworks like Nextflow (a data-driven workflow management system), WDL (Workflow Description Language), and Toil (a scalable workflow engine) for high-performance, customizable genomic analysis pipeline.支持工具包括samtools(序列对齐/地图工具),bcftools(二进制对齐/地图和变体呼叫格式工具)和fastQC(用于高通量序列数据的质量控制工具)。利用GPU(图形处理单元)和容器化可增强可扩展性和可重复性。
(法国多发性硬化症注册中心,旨在为研究目的收集法国多发性硬化症患者群体的影像数据、临床数据和生物样本)和 FLI 2(法国生命成像,致力于建立一个国家分布式电子基础设施来管理和处理医学影像数据)。这些共同努力旨在自动分割 MS 患者的 MRI 扫描,以帮助临床医生进行日常工作。该挑战赛于 2021 年 9 月 23 日在 MICCAI 2021 会议上举行。更具体地说,本次挑战赛要解决的问题如下。传统 MRI 广泛用于疾病诊断、患者随访、治疗监测,更广泛地用于了解 MS 的自然史。越来越多的文献对通过比较一个时间点与另一个时间点来在 T2/FLAIR 上描绘新的 MS 病变感兴趣。这种标记物比病变的总数量和体积更为重要,因为新病变的积累可以让临床医生了解某种抗炎 DMD(疾病改良药物)是否对患者有效。药物疗效的唯一指标确实是中枢神经系统内没有新的 T2 病变。但是,手动执行新病变计数是一项非常复杂且耗时的任务。因此,自动检测这些新病变将成为评估患者疾病活动性的一大进步。基于第一次 MSSEG 挑战赛的成功,我们组织了一次由 MICCAI 赞助的在线挑战赛,这次的主题是新的 MS 病变检测 3。这次挑战赛使我们能够 1)估计 2016 年至 2021 年期间取得的进展,2)扩大患者数量,以及 3)关注新病变这一关键临床标记物。我们对一个大型数据库(100 名患者,每人有两个时间点)执行了评估任务,该数据库是从 OFSEP 队列汇编而成,其中包含来自不同中心和扫描仪的 3D FLAIR 图像。与之前的挑战一样,我们在专用平台 (FLI-IAM) 上进行了评估,以自动化评估并消除挑战者看到进行评估的图像而产生的潜在偏见。
试图在大型系统上达到完全精确度显然面临着所谓的“指数墙”,这限制了最精确方法对更复杂的化学系统的适用性。到目前为止,用经典超级计算机执行的最大计算量也只包括数百亿个行列式 4 ,有 20 个电子和 20 个轨道,随着大规模并行超级计算机架构的进步,希望在不久的将来解决接近一万亿个行列式(24 个电子、24 个轨道)的问题。5 鉴于这些限制,必须使用其他类别的方法来近似更大的多电子系统的基态波函数。它们包括:(i) 密度泛函理论 (DFT),它依赖于单个斯莱特行列式的使用,并且已被证明非常成功,但无法描述强关联系统 6 – 8 ; (ii) 后 Hartree - Fock 方法,例如截断耦合团簇 (CC) 和组态相互作用 (CI) 方法,即使在单个 Slater 行列式之外仍然可以操作,但由于大尺寸分子在 Slater 行列式方面的计算要求极高,因此不能应用于大尺寸分子。9 – 16 一个很好的例子是“黄金标准”方法,表示为耦合团簇单、双和微扰三重激发 CCSD(T)。事实上,CCSD(T) 能够处理几千个基函数,但代价是巨大的运算次数,而这受到大量数据存储要求的限制。17 无论选择哪种化学基组(STO-3G、6-31G、cc-pVDZ、超越等),这些方法都不足以对大分子得出足够准确的结果。 Feynman 18,19 提出的一种范式转变是使用量子计算机来模拟量子系统。这促使社区使用量子计算机来解决量子化学波函数问题。直观地说,优势来自于量子计算机可以比传统计算机处理“指数级”更多的信息。20 最近的评论提供了有关开发专用于量子化学的量子算法的策略的背景材料。这些方法包括量子相位估计(QPE)、变分量子特征值求解器(VQE)或量子虚时间演化(QITE)等技术。21 – 24 所有方法通常包括三个关键步骤:(i)将费米子汉密尔顿量和波函数转换为量子位表示;(ii)构建具有一和两量子位量子门的电路;(iii)使用电路生成相关波函数并测量给定汉密尔顿量的期望值。重要的是,目前可用的量子计算机仍然处于嘈杂的中型量子(NISQ)时代,并且受到两个主要资源的限制:
摘要 — 糖尿病视网膜病变 (DR) 是一种眼部疾病,其特征是视网膜血管受损。如果不及时发现,可能会导致失明。及早发现和治疗 DR 可以大大降低视力丧失的风险。经过大量训练的专家通常使用彩色眼底照片来诊断这种可怕的疾病。与计算机辅助方法相比,由于全球糖尿病患者数量不断增加,眼科医生对 DR 视网膜眼底图像的手动诊断时间更长。因此,自动 DR 检测变得至关重要。随着对医学研究的重视,深度神经网络在医疗保健领域的应用取得了显着进步。这项工作的目标是确定 DR 的五个阶段:正常、轻度、中度、重度和增生性 DR。深度学习是提高性能的最流行方法之一,尤其是在医学图像的分类和解释方面。我们使用从 Kaggle 获得的大量眼底图像数据集对用于加速糖尿病视网膜病变 (DR) 检测的六种深度学习模型(Custom CNN、Resnet50、Densenet121、EfficientNetB0、EfficientNetB2 和 ViT)进行了评估。在五阶段 DR 分类中,准确率提高到 89%,精确率提高到 89%,召回率提高到 89%,F1 得分提高到 89%,结果表明 DenseNet121 模型的性能非常出色。
量子机器学习有可能为人工智能提供强大的算法。在量子机器学习中追求量子优势是一个活跃的研究领域。对于目前有噪声的中型量子计算机,已经提出了各种量子-经典混合算法。一种先前提出的混合算法是基于门的变分嵌入分类器,它由经典神经网络和参数化的基于门的量子电路组成。我们提出了一种基于模拟量子计算机的量子变分嵌入分类器,其中控制信号随时间连续变化:我们特别关注的是使用量子退火器的实现。在我们的算法中,通过线性变换将经典数据转换为模拟量子计算机的时变哈密顿量的参数。非线性分类问题所需的非线性纯粹由模拟量子计算机通过最终量子态对哈密顿量控制参数的非线性依赖性提供。我们进行了数值模拟,证明了我们的算法对线性不可分数据集(例如同心圆和 MNIST 数字)进行二分类和多类分类的有效性。我们的分类器可以达到与最佳经典分类器相当的准确度。我们发现,通过增加量子比特的数量可以提高分类器的性能,直到性能饱和并波动。此外,我们的分类器的优化参数数量与量子比特的数量成线性关系。因此,当我们的模型大小增加时,训练参数数量的增加速度不如神经网络快。我们的算法提出了使用当前量子退火器解决实际机器学习问题的可能性,并且它还可用于探索量子机器学习中的量子优势。