摘要:为使锂离子电池保持安全运行状态并优化其性能,迫切需要对健康状态(SOH)进行精确评估,该状态指示锂离子电池的退化程度。本文提出了一个回归机器学习框架,该框架结合了卷积神经网络(CNN)和电化学阻抗谱(EIS)的奈奎斯特图作为特征来估计锂离子电池的SOH,显著提高了SOH估计的准确性。结果表明,基于EIS特征的奈奎斯特图比简单的阻抗值提供了有关电池老化的更详细信息,因为它能够反映阻抗随时间的变化。此外,与使用DNN模型的简单阻抗值以及其他传统机器学习方法(如高斯过程回归(GPR)和支持向量机(SVM))相比,CNN模型中的卷积层在从EIS测量数据中提取不同级别的特征和表征锂离子电池的退化模式方面更有效。
工作论文 — “利用高斯过程对混合频率数据进行即时预测”,与 Niko Hauzenberger(思克莱德大学)、Massimiliano Marcellino(博科尼大学)和 Michael Pfar-rhofer(华盛顿大学)合作,提交给《计量经济学杂志》,arXiv:2402.10574。 — “欧元区的货币政策和收入与财富的联合分配”,arXiv:2304.14264。 — “中央银行信息冲击的国际影响”,与 Michael Pfarrhofer(华盛顿大学)合作,《宏观经济动力学 R&R》,arXiv:1912.03158。 — “欧元区宏观经济波动的影响”,与 Maximilian B¨ock(博科尼大学)、Niko Hauzenberger(思克莱德大学)、Michael Pfarrhofer(WU)和 Gre- gor Zens(博科尼大学)合作,欧洲系统性风险委员会 (ESRB) 工作报告 80,2018 年。— “在面对不平等的类别分布的情况下使用机器学习技术预测信用违约概率”,arXiv:1907.12996。
锂离子电池降解的复杂性质导致文献中提出了许多基于机器的基于机器学习的方法。但是,使用复杂模型的机器学习在计算上可能很昂贵,尽管线性模型的速度更快,但它们也可能不灵活。分段线性模型提供了一种折衷,这是一种快速而灵活的替代方案,其计算上的昂贵不如神经网络或高斯过程回归等技术。在这里,将电池健康预测的分段线性方法(包括自动化功能选择步骤)与高斯流程回归模型进行了比较,并且发现在训练数据集中的中位错误方面表现出色,并且在第95个误差百分位数上的表现确实更好。特征选择过程演示了限制输入之间的相关性的好处。进一步的试验发现,分段线性方法可用于改变培训数据的输入大小和可用性。
方法:我们分析了一个数据库,包括静止状态心电图和健康志愿者的连续血压记录。总共884个数据集符合纳入标准。其他72名BMI参与者的数据表示肥胖症(> 30 kg/m²)作为评估样本。对于所有参与者,计算了29个不同的心血管指数,包括心率变异性,血压变异性,压力反射功能,脉搏波动力学和QT间隔特征。基于心血管指数,性别和装置,采用了四种不同的方法,以估计健康受试者的日历年龄,即相关性向量回归(RVR),高斯过程回归(GPR),支持矢量回归(SVR)和线性回归(LR)。估计肥胖组的年龄,我们从大型样本中汲取了正常的体重控制,以构建一个训练集和具有类似于肥胖测试样本的年龄分布的验证集。
在许多值得关注的科学应用中,量子算法有可能比传统算法快得多。例如量子机器学习 [1]、量子化学 [2] 以及许多其他 [3]。不幸的是,其中许多应用还无法在当前的嘈杂中型量子 (NISQ) 计算机上实现 [4],需要等到噪声源可以被抑制到阈值,使量子计算机可用于实践,甚至构建容错量子计算机 [5]。然而,许多有趣的 LGT 问题已经可以通过 NISQ 设备进行研究 [6]。特别是,如果以哈密顿量公式研究 LGT,量子算法通常不会受到符号问题的影响 [7,8]。一种重要的现成算法是变分量子特征值求解器 (VQE) [ 9 ],它是一种混合量子经典算法,利用变分原理寻找给定汉密尔顿量 H 的基态(和激发态)。VQE 的量子部分用于测量给定多量子比特状态中汉密尔顿量的期望值,即能量,而经典部分则在由参数化量子电路生成的多量子比特状态族中搜索使能量最小化的状态。本文提出的算法是一种经典优化器,旨在找到基态的良好近似值,尽可能减少能量测量的次数。这里选择的方法称为贝叶斯全局优化。它的首次应用可以追溯到 20 世纪 60 年代 [ 10 ],而它的现代实现则基于最近的研究 [ 11 ]。该方法的基础是高斯过程回归 (GPR),这是一种基于高斯过程贝叶斯推理的插值方法。它使我们能够使用有限量的 (嘈杂) 数据创建黑盒函数的预测模型。在每次优化迭代中,该模型用于确定一组可能接近全局最小点的参数。此步骤按照称为获取函数优化的过程执行。这里提出的优化能量的算法不同于 VQE 中常用的其他替代方法,因为它不仅使用能量的估计值,还使用其统计误差的值。其动机是降低每一步的量子测量次数:即使对于不精确的能量测量,只要它们的误差由于中心极限定理近似为高斯,该过程也是定义良好的。使用噪声设备模拟器将该算法的结果与其他常用的替代方案进行了比较。
机器学习算法的使用经常涉及对学习参数的仔细调整和模型超参数。不幸的是,这种调整是一种“黑色艺术”,需要专家经验,经验法规或有时是蛮力搜索。因此,自动方法可以很好地呼吁,可以优化任何给定的学习算法的性能。在这项工作中,我们通过贝叶斯选择的框架来考虑这个问题,其中学习算法的概括性能是从高斯过程(GP)中建模为样本的。我们表明,对于GP性质的某些选择,例如内核的类型及其超级参数的处理,可以在获得可以实现专家级别的良好优化器方面发挥至关重要的作用。我们描述了新的算法,这些算法考虑了学习算法实验的可变成本(持续时间),并且可以利用多个内核的主体进行并行实验。我们表明,这些提出的算法可以改善以前的自动过程,并且可以针对许多算法(包括潜在的Dirichlet分配,结构化SVM和卷积神经网络)达到或超越人类专家级别的优化。
随着高通量遗传数据的出现,人们尝试使用线性混合模型 (LMM) 从远亲群体的全基因组 SNP 数据中估计遗传力。然而,在大型群体研究中拟合这样的 LMM 极具挑战性,因为它涉及高维线性代数运算。在本文中,我们提出了一种名为 PredLMM 的新方法,该方法近似于上述 LMM,其灵感来自遗传聚合和高斯预测过程的概念。PredLMM 的计算复杂度明显优于大多数现有的基于 LMM 的方法,因此为估计大规模群体研究中的遗传力提供了一种快速的替代方法。从理论上讲,我们表明,在遗传聚合模型下,我们近似的极限形式是著名的大高斯过程似然的预测过程近似,该近似具有完善的准确性标准。我们通过广泛的模拟研究说明了我们的方法,并用它来估计英国生物银行队列中多种数量性状的遗传性。
量子贝叶斯计算 (QBC) 是一个新兴领域,它利用量子计算机的计算优势,为贝叶斯计算提供指数级加速。我们的论文以两种方式丰富了文献。首先,我们展示了如何使用冯·诺依曼量子测量来模拟机器学习算法,例如马尔可夫链蒙特卡罗 (MCMC) 和深度学习 (DL),这些算法是贝叶斯学习的基础。其次,我们描述了实现量子机器学习所需的数据编码方法,包括传统特征提取和核嵌入方法的对应方法。我们的目标是展示如何将量子算法直接应用于统计机器学习问题。在理论方面,我们提供了高维回归、高斯过程 (Q-GP) 和随机梯度下降 (Q-SGD) 的量子版本。在经验方面,我们将量子 FFT 模型应用于芝加哥住房数据。最后,我们总结了未来研究的方向。
具有缺失值的多变量时间序列在医疗保健和财务等领域很常见,并且多年来的数量和综合性已经增长。这提出了一个问题,是否可以在该领域中执行经典数据插补方法。然而,深度学习的幼稚应用在提供可靠的置信估计和缺乏可解释性方面缺乏。我们提出了一个新的深层连续变量模型,以减少维度和数据插补。我们的建模假设是简单且可解释的:高尺寸的时间序列具有较低的代数反应,该代态根据高斯过程在及时的及时演变而来。使用具有新型结构化变分近似的VAE方法实现了缺失数据的非线性维度降低。我们证明,我们的APS在计算机视觉和医疗保健领域的高维数据上胜过几种经典和深度学习的数据插补方法,同时增加了进化的平稳性,并提供了可解释的不良估计。
在海洋工程中,计算流体动力学(CFD)模型对于模拟时间敏感的情况至关重要,例如预测溢油以及在海上进行搜索和救援操作。因此,创建可以有效,准确模拟实时数据的CFD模型至关重要。当前的CFD模型分为两类:慢速且计算上昂贵但准确的细化高保真模型,并且速度快,便宜但通常不准确。为了开发一个平衡计算成本和准确性的模型,我们建议使用稀疏变分高斯工艺进行闭合建模。我们模拟了二维流体流的理想情况,并通过圆柱障碍物越过,并增强了具有三种高保真模型的三种不同离散化的低保真模型。在所有离散化中,我们的增强低保真度模型保留了与高保真模型的高度准确性和相似性,并且与标准的低保真模型相比,误差明显少得多。因此,我们发现高斯过程可以有效地用于闭合流体流量。