摘要:认知健康的声音偏差称为轻度认知障碍(MCI),尽早监测它以防止痴呆症,阿尔茨海默氏病(AD)和帕金森氏病(PD)等复杂疾病。传统上,使用蒙特利尔认知评估(MOCA)对MCI严重性进行了手动评分来监测。在这项研究中,我们提出了一种新的MCI严重性监测算法,并通过自动产生与MOCA评分等效的严重程度得分来回归分析单通道电 - 摄影(EEG)数据的提取特征。我们评估了用于算法开发的多试验和单轨分析。进行多试验分析,从与突出的事件相关电位(ERP)点和相应的时域特征中提取了590个特征,我们利用Lasso回归技术选择了最佳功能集。经典回归技术中使用了13个最佳特征:多元回归(MR),集合回归(ER),支持向量回归(SVR)和Ridge回归(RR)。对ER的最佳结果是1.6的RMSE和剩余分析。在单审分析中,我们从每个试验中提取了一个时间 - 频图图像,并将其作为对构建的卷积深神经网络(CNN)的输入。这种深CNN模型的RMSE为2.76。据我们所知,这是从单渠道脑电图数据中使用多试和单个数据生成与MOCA相当于MOCA的MCI严重程度的自动分数。
第 2 单元监督机器学习回归(线性回归、岭回归、回归树、非线性回归、贝叶斯线性回归、多项式回归、套索回归、梯度下降)分类(随机森林、决策树、逻辑回归、朴素贝叶斯分类器、多类分类)最大似然估计、正则化/ MAP、软/硬边距 SVM、SVM 对偶组件 2 第 3 单元无监督机器学习聚类(K 均值聚类(软/硬)、KNN(k 最近邻)、层次聚类、异常检测、神经网络、主成分分析、独立成分分析、先验算法、后验算法、奇异值分解)关联(隐马尔可夫模型、高斯混合模型、高斯混合模型-通用背景模型、联合因子分析、i-向量、i-向量/PLDA 方法)第 4 单元强化机器学习 强化学习概述、学习任务、Q 学习、非确定性 Q 学习、时间差分学习、RL-General 公式、多臂赌博机、马尔可夫决策过程和深度强化学习 6. 教科书和参考文献: 1. 《模式识别与机器学习》,Bishop 编著,Springer,2006 年。 2. 《机器学习:概率视角》,Kevin P. Murphy 编著,麻省理工学院出版社,2012 年 3. 《统计学习要素》,第二版,Hastie、Tibshirani 和 Friedman 编著,Springer-Verlag,
摘要这项研究的目的是对来自波兰北部的一个地理位置收获的蜂蜜的全基因组分析和评估细菌分离株的抗菌潜力。总共源自三个蜂蜜样品,总共获得了132个菌株,CFAM的抗菌活性(无细胞后培养培养基)用作菌株选择和详细基因组研究的标准。两个测试的分离株(SZA14和SZA16)被归类为帕拉酸芽孢杆菌,基于其ANI和系统发育分析的相关性,一个分离株(SZB3)为枯草芽孢杆菌。分离株SZA14和SZA16是从相同的蜂蜜样品中收获的,核苷酸同一性为98.96%。已经发现所有三个分离株都是不同抗菌化合物的潜在生产者。二次代谢产物基因组挖掘管道(抗石)鉴定了14个基因簇编码为非核糖体肽合成酶(NRP),Polyketide合酶(PKSS)和核糖体合成的核糖体合成和核糖体合成的,并且是经过转化的肽(Ripps),这些肽是新型替代品的替代品。Bagel4分析揭示了分离株SZA14和SZA16中有九个假定的基因簇(包括两个分离物中存在的六个类似的簇,编码肠球菌NKR-5-3B,Haloduracin-alpha,sonorensin,sonorensin,bottromycin and comx2,comx2,comx2,comx2,comx2,suloduracin-alloduracin- SZB3(能力因子,孢子杀伤因子,枯草脂蛋白A和乙酰肽)。这项研究的结果证实了蜂蜜衍生的芽孢杆菌属。菌株可以被认为是各种抗菌剂的潜在生产者。
临床前扰动筛选,其中在疾病模型上系统地测试了遗传,化学或环境扰动的影响,由于其规模和因果性质,对机器学习增强的药物发现具有巨大的希望。预测模型可以根据分子特征来推断以前未经测试的疾病模型的扰动反应。这些在计算机标签中可以扩展数据库并指导实验优先级。但是,对扰动特异性效应进行建模并在各种生物环境中产生健壮的预测性能仍然难以捉摸。我们介绍了LEAP(自动编码器和预测变量的分层集合),这是一个新颖的集合框架,可改善稳健性和概括。LEAP利用多个Damae(数据增强蒙版的自动编码器)表示和套索回归器。通过结合从不同随机初始化中学到的多种基因表达表示模型,在预测未见细胞系,组织和疾病模型中基因本质或药物反应方面始终胜过最先进的方法。值得注意的是,我们的结果表明,结合表示模型而不是仅预测模型会产生出色的预测性能。超出其性能增长,LEAP在计算上是有效的,需要最小的高参数调整,因此很容易将其纳入药物发现管道中,以优先考虑有希望的目标并支持生物标志物驱动的分层。这项工作中使用的代码和数据集可公开使用。
虽然通过正则化程序进行特征选择的问题在监督学习环境中引起了极大关注,并在过去二十年中产生了大量文献,但直到很晚且相对较新的时候,它才有效地出现在无监督框架中。第一种方法是基于模型的,这些方法自然适合包括套索(L 1)和相关惩罚,并且可以引用 [1] 来了解 L 1 惩罚的 EM 程序(混合由方差相等的高斯分布组成)或 [2] 来详细回顾基于模型的高维数据聚类。在更通用的框架中,没有对底层分布做出任何假设,在 [3] 中引入了具有 L 1 惩罚的稀疏 k 均值算法,后来扩展到每个聚类内的特征选择,并通过一致性结果得到加强,[4] [5] [6]。我们还要提到,最近在 [7] 中引入了稀疏 k 均值算法对重叠变量组的推广。话虽如此,上面引用的所有方法本质上都是为数值数据设计的,而真实数据通常由数值和分类特征组成。上面的一些作者触及了分类特征的问题,提到了使用虚拟变量进行转换使其数字化的可能性。但是,这个处理步骤并不是那么直接,因为零一向量上的欧几里得距离并不特别适合与数值变量上的欧几里得距离混合。其他作者
背景:扩张型心肌病 (DCM) 是收缩性心力衰竭的主要原因之一,常具有遗传因素。DCM 发病和进展的分子机制仍不清楚。本研究旨在寻找新的诊断生物标志物,以辅助治疗和诊断 DCM。方法:探索基因表达综合 (GEO) 数据库,提取两个微阵列数据集 GSE120895 和 GSE17800,随后将它们合并为一个队列。在 DCM 组和对照组中分析差异表达基因,然后进行加权基因共表达网络分析以确定核心模块。通过基因显着性 (GS) 和模块成员资格 (MM) 值识别核心节点,并通过 Lasso 回归模型预测四个枢纽基因。在数据集 GSE19303 中进一步验证四个枢纽基因的表达水平和诊断价值。最后,确定了潜在的治疗药物和调节基因的上游分子。结果:绿松石模块是 DCM 的核心模块。鉴定出四个枢纽基因:GYPC(糖蛋白C)、MLF2(髓系白血病因子2)、COPS7A(COP9信号体亚基7A)和ARL2(ADP核糖基化因子类GTPase 2)。随后,通过实时定量PCR(qPCR)检测,枢纽基因在数据集和验证模型中的表达均存在显著差异。还鉴定出四种潜在的调节剂和七种化学物质。最后,成功进行了基因编码蛋白与小分子药物的分子对接模拟。结论:结果表明ARL2、MLF2、GYPC和COPS7A可能是DCM的潜在基因生物标志物。
背景 .本研究旨在通过整合生物信息学分析,寻找预测葡萄膜黑色素瘤预后的脂肪酸代谢lncRNA及潜在的分子靶向药物。方法 .本研究获取了309个FAM-mRNA的表达矩阵,通过共表达网络分析,鉴定出225个FAM-lncRNA,并进行单变量Cox分析、LASSO回归分析和交叉验证,最终得到由4个PFAM-lncRNA(AC104129.1、SOS1-IT1、IDI2-AS1、DLGAP1-AS2)组成的优化UVM预后预测模型。结果 .生存曲线显示,在预后预测模型中,训练队列、测试队列及所有患者中高危组UVM患者的生存时间均显著低于低危组(P<0:05)。进一步进行风险预后评估,结果显示,在训练队列、测试队列及所有患者中高危组的风险评分均显著高于低危组(P<0:05),随着风险评分的增加,患者生存率降低、死亡人数增加;AC104129.1、SOS1-IT1、DLGAP1-AS2为高危PFAM-lncRNA,IDI2-AS1为低危PFAM-lncRNA。随后,我们通过PCA分析和ROC曲线进一步验证了模型预测预后的准确性和预后价值。结论。我们鉴定出24种潜在的分子靶向药物,这些药物在高危和低危UVM患者之间具有显著的敏感性差异,其中13种可能是高危患者的潜在靶向药物。我们的研究结果对高危UVM患者的早期预测和早期临床干预具有重要意义。
摘要 背景 风险预测模型有助于识别 2 型糖尿病高风险个体。然而,在中国东部地区,尚未将此类模型应用于临床实践。目的 本研究旨在基于体检数据开发一种简易模型,识别中国东部地区 2 型糖尿病高危人群,以进行预测、预防和个性化医疗。方法 对 15,166 名每年进行体检的非糖尿病患者(12-94 岁;37% 为女性)进行了 14 年的回顾性队列研究。构建多元逻辑回归和最小绝对收缩和选择算子 (LASSO) 模型,用于单变量分析、因子选择和预测模型构建。校准曲线和受试者工作特征 (ROC) 曲线用于评估列线图的校准和预测精度,并使用决策曲线分析 (DCA) 评估其临床效度。结果 本研究中 2 型糖尿病的 14 年发病率为 4.1%。本研究开发了预测2型糖尿病风险的列线图,校准曲线显示该列线图具有良好的校准能力,内部验证中ROC曲线下面积(AUC)显示统计准确性(AUC = 0.865)。最后,DCA支持该列线图的临床预测价值。结论该列线图可作为一种简单、经济、可广泛推广的工具来预测中国东部地区2型糖尿病的个体化风险。早期成功识别和干预高危个体有助于从预测、预防和个性化医疗的角度提供更有效的治疗策略。
摘要:基于功能性近红外光谱的脑机接口 (fNIRS-based BCI) 越来越受到关注。然而,由于固有的血流动力学延迟,我们实际上只能获得大量的 fNIRS 数据。因此,在使用机器学习技术时,可能会遇到由于高维特征向量而导致的问题,例如分类准确率下降。在本研究中,我们采用了一种基于弹性网络的特征选择,这是嵌入式方法之一,并通过分析结果证明了其实用性。使用从 18 名参与者获得的 fNIRS 数据集对心算和空闲状态引起的大脑激活进行分类,我们在改变参数 α(套索权重与岭正则化)的同时进行特征选择后计算了分类准确率。对于 α = 0.001、0.005、0.01、0.05、0.1、0.2 和 0.5 的各个值,分类准确率的平均值分别为 80.0 ± 9.4%、79.3 ± 9.6%、79.0 ± 9.2%、79.7 ± 10.1%、77.6 ± 10.3%、79.2 ± 8.9% 和 80.0 ± 7.8%,与使用所有特征估计的分类准确率的平均值(80.1 ± 9.5%)在统计上没有差异。因此,对于所有考虑的参数 α 值,分类准确率没有差异。特别是对于 α = 0.5,即使使用总特征的 16.4% 的特征,我们也能实现统计上相同的分类准确率水平。由于基于弹性网络的特征选择可以轻松应用于其他情况,而无需复杂的初始化和参数微调,我们可以期待看到基于弹性的特征选择可以积极应用于 fNIRS 数据。
化学物质的调节需要了解其对大量目标物种的毒理作用。传统上,这些知识是通过体内测试获得的。最近为基于机器学习寻找替代方案的努力并没有集中于保证透明度,可比性和可重复性,这使得很难评估这些方法的优势和缺点。此外,还需要可比的基线表现。在这项研究中,我们在[Schür等人,《自然科学数据》,2023年提出的Adore“ T-F2F”挑战上训练了回归模型,以预测鱼类上有机化合物的LC50(致命浓度50),以LC50(致命浓度50)测量。我们训练了拉索,随机森林(RF),XGBOOST,高斯工艺(GP)回归模型,并发现了一系列稳定的方面,这些方面均稳定:(i)使用质量或摩尔浓度不会影响性能; (ii)性能仅微弱地取决于化学物质的表示方式,但(iii)强烈地取决于数据的分配方式。总体而言,基于树的型号RF和XGBoost表现最好,我们能够预测log10转换的LC50,其根平方误差为0.90,这对应于原始LC50量表上的数量级。在本地一级,模型无法准确预测单个化学物质的毒性。对单个化学物质的预测主要由几种化学性质,分类性状并未被模型充分捕获。因此,模型尚不适用于监管过程。尽管如此,这项工作有助于就如何将机器学习整合到监管过程中的持续讨论。