门fisher是主要在Python3中写的软件包,可用于创建,分析和可视化系统基因组数据集,这些数据集由真核生物构成蛋白质序列。与许多现有的phyLogenomic管道不同,门fisher具有240个蛋白质编码基因的手动策划数据库,这是从304个真核生物分类群采样的先前系统发育数据集的子集。软件包还可以利用用户创建的真核蛋白数据库,这可能更适合浅层进化问题。门fofisher还配备了一套公用事业,以帮助进行常规分析,例如基于数据集的占用/完整性的替代遗传代码的预测,去除基因和/或分类单元,测试氨基酸组成的氨基酸组成异质性,序列之间的异质性和快速型号的依次,超级或快速的综合型,超级或快速抗衡的位置,超级抗体,超级抗体,超级超级脉络性,超级超级可超过型,超级依赖,超级超出型号,超级超级依次,超级超出型号,超级超级超出型号,超级依赖性,超级超出型号,超级超级可超过量的超级量。由随机重采样基因创建,并从核苷酸序列创建超髓质。©2024 Wiley Wendericals LLC。
描述观察到的数据与其估计的潜在变量之间的关联测试。JackStraw软件包提供了一种重采样策略和测试方案,以估计观察到的数据及其潜在变量之间关联的重要性。取决于数据类型和分析目的,潜在变量可以通过主体分析(PCA),因子分析(FA),K-均值聚类以及相关的无监督学习算法来估算。jackstraw方法学习了本循环分析中固有的过度拟合特征,在该特征中,观察到的数据用于估计潜在变量,并再次用于测试估计的潜在变量。当PCA估算潜在变量时,JackStraw可以通过低维主组件(PC)估计,可观察到的变量和潜在变量之间的统计测试对观察到的变量和潜在变量之间的关联。这一范围内导致识别与PC显着相关的变量。同样,诸如K-均值聚类,围绕MEDOIDS(PAM)和OTHERS的诸如K-均值聚类和others的无关聚类,在高维数据中找到相干组。通过测试数据和群集中心之间的关联,JackStraw估计了集群成员资格的统计意义。聚集成员身份,并应用于对Single细胞RNA-Seq(SCRNA-SEQ)中细胞身份的无监督评估。
抽象的神经网络(NNS)越来越多地用于天气和气候模型中数据驱动的亚网格尺度参数化。虽然NNS是从数据中学习复杂的非线性关系的强大工具,但将它们用于参数化存在一些挑战。这些挑战中的三个是(a)与学习稀有(通常是大振幅)样本有关的数据失衡; (b)预测的不确定性定量(UQ)提供精确指标; (c)对其他气候的概括,例如那些具有不同辐射的刺激的气候。在这里,我们使用基于整个大气的社区气候模型(WACCM)物理学的重力波(GW)参数化来解决这些挑战的方法的性能。WACCM具有地讲,对流和前驱动的GWS的复杂状态,对对流和前驱动的GWS。对流和地形驱动的GWS由于在大多数网格点缺乏对流或地球而具有显着的数据失衡。我们使用重采样和/或加权损失功能来解决数据不平衡,从而成功地模仿了所有三个来源的参数化。我们证明了三种UQ方法(贝叶斯NN,变异自动编码器和辍学器)提供了与测试过程中准确性相对应的集合差,提供标准,用于识别NN何时给出不准确的预测。最后,我们表明这些NN的准确性降低了温暖的气候(4×CO 2)。但是,通过应用转移学习,仅使用约1%的新数据从温暖的气候中重新训练一层,从而显着提高了它们的性能。这项研究的结果为开发可靠且可推广的数据驱动参数的各种过程(包括(但不限于)GWS)提供了见解。
摘要的高血压患者,血浆同型半胱氨酸水平升高很常见。当这些方面合并时,冠状动脉疾病(CHD)的风险很高。在此,我们开发了并验证了易于使用的列图,以预测呼吸升高血浆同型半胱氨酸的高血压患者的高风险冠心病。呼吸患者(n = 1,962),患有高脑结膜血症和高血压分为训练(n = 1,373,70%)和验证(n = 589,30%)。我们使用多元COX恢复分析提取了CHD预测变量,然后构建了一个nom图模型。使用1,000个自举重采样的内部验证,以评估使用接收器操作特征曲线(AUC)和校准图下的区域和校准图的一致性和歧视。我们使用提取的预测因子构建了一个nom图模型,包括年龄,腰围比率,烟雾和低密度脂蛋白胆固醇水平。80个月时培训和验证队列的AUC分别为0.735(95%CI:0.678-0.792)和0.646(95%CI:0.547-0.746)。基于校准图,观察到的CHD存活率与训练和验证集中的CHD存活率之间的一致性是可以接受的。在命名图中总共可以使用超过151点,以鉴定高血压升高的血浆同性恋蛋白的高血压患者中的高危患者。我们开发了一种CHD风险预测模型,用于呼吸高血压患者的高血压疗法患者。我们的发现为早期阶段快速鉴定高风险冠心病提供了有用的临床工具。(Int Heart J Advance出版)关键词:心脏病,高血压,打nor,超同类状态状态,预测模型
目的:我们的研究旨在根据放射线质量评分(RQS)评估脑转移的放射组学研究质量,对个体预后或诊断列表的多变量预测模型的透明报告以及图像生物标准标准化启动(IBSI)指南。材料和方法:PubMed Medline和Embase搜索有关评估脑转移酶的放射线学的文章,直到2021年2月。,其中包括29篇相关的原始研究文章。结果:仅在三项研究(10.3%)中进行外部验证。中间RQS为3.0(范围为-6至12),较低的基本依从率为50.0%。与“黄金标准”(10.3%)相比,依从率较低,表明潜在的临床效用(10.3%),进行截止分析(3.4%),报告校准统计数据(6.9%),并提供开放的科学和数据(3.4%)。没有研究涉及重测或幻影研究,前瞻性研究或成本效益分析。对三脚架清单的依从性总体效率为60.3%,报告标题(3.4%),结果的盲评估(0%),丢失数据的处理(0%)的描述以及完整的预测模型的介绍(0%)。大多数研究都缺乏预处理步骤,具有偏置场校正,异诺夫氧乙烯重采样,头骨剥离和灰度离散化,仅在六个(20.7%),9(31.0%),四个(3.8%)和四项(3.8%)和四项(13.8%)研究中进行。结论:研究期间发表的关于脑转移的放射组学研究的总体科学和报告质量不足。放射素学研究应遵守RQS,Tripod和IBSI指南,以促进放射素学向临床领域的转化。关键字:机器学习;脑转移;质量改善;放射学;放射线质量评分
摘要。我们提出了一个计算框架,它结合了深度和颜色(纹理)模态来进行 3D 场景重建。场景深度由采用飞行时间原理的低功率光子混合装置 (PMD) 捕获,而颜色(2D)数据则由高分辨率 RGB 传感器捕获。这种 3D 捕获设置有助于 3D 人脸识别任务,更具体地说,有助于深度引导图像分割、3D 人脸重建、姿势修改和规范化,这些都是特征提取和识别之前的重要预处理步骤。两种捕获的模态具有不同的空间分辨率,需要对齐和融合,以形成所谓的视图加深度或 RGB-Z 3D 场景表示。我们特别讨论了系统的低功耗操作模式,其中深度数据看起来非常嘈杂,需要在与颜色数据融合之前进行有效去噪。我们建议使用非局部均值 (NLM) 去噪方法的修改,该方法在我们的框架中对复值数据进行操作,从而提供针对低光捕获条件的一定稳健性和对场景内容的自适应性。在我们的方法中,我们对范围点云数据实施双边滤波器,确保数据融合步骤的非常好的起点。后者基于迭代理查森方法,该方法用于使用来自颜色数据的结构信息对深度数据进行有效的非均匀到均匀重采样。我们展示了基于 GPU 的框架的实时实现,可产生适合面部规范化和识别的高质量 3D 场景重建。关键词:ToF、2D/3D、深度、融合、去噪、NLM、面部、ICP
降阶电池寿命模型由各种老化模式的代数表达式组成,广泛用于将加速老化测试中的退化趋势推断到真实老化场景中。确定具有高精度和低不确定性的模型对于确保模型推断的可信度至关重要,但是,很难编写准确预测多元数据趋势的表达式;对文献中的循环退化模型的回顾揭示了各种各样的函数关系。在这里,使用机器学习辅助模型识别方法来拟合突出的 LFP-Gr 老化数据集中的退化,并通过自举重采样量化不确定性。本研究中确定的模型的平均绝对误差约为人类专家模型的一半。通过转换为状态方程形式并将预测结果与不同负载下的电池老化进行比较来验证模型。参数不确定性被带入储能系统模拟中,以估计老化模型不确定性对系统寿命的影响。这里使用的新模型识别方法将寿命预测不确定性降低了三倍以上(人类专家模型 10 年相对容量为 86% ± 5%,机器学习辅助模型为 88.5% ± 1.5%),从而可以更自信地估计储能系统的寿命。© 2022 作者。由 IOP Publishing Limited 代表电化学学会出版。这是一篇开放获取的文章,根据知识共享署名 4.0 许可条款分发(CC BY,http://creativecommons.org/licenses/by/4.0/),允许在任何媒体中不受限制地重复使用作品,前提是正确引用原始作品。[DOI:10.1149/1945-7111/ac86a8]
我们开展了一项研究来评估梯度提升算法在岩爆评估中的潜力和稳健性,建立了一个变分自动编码器(VAE)来解决岩爆数据集的不平衡问题,并提出了一种针对基于树的集成学习的多级可解释人工智能(XAI)。我们从现实世界的岩爆记录中收集了537个数据,并选择了四个导致岩爆发生的关键特征。首先,我们使用数据可视化来深入了解数据的结构,并进行相关性分析以探索数据分布和特征关系。然后,我们建立了一个VAE模型来为由于类别分布不平衡而产生的少数类生成样本。结合VAE,我们比较和评估了六种最先进的集成模型,包括梯度提升算法和经典逻辑回归模型,用于岩爆预测。结果表明,梯度提升算法优于经典的单一模型,而 VAE 分类器优于原始分类器,其中 VAE-NGBoost 模型的结果最为理想。与针对不平衡数据集结合 NGBoost 的其他重采样方法(例如合成少数族群过采样技术 (SMOTE)、SMOTE 编辑最近邻 (SMOTE-ENN) 和 SMOTE-tomek 链接 (SMOTE-Tomek))相比,VAE-NGBoost 模型的效果最佳。最后,我们使用特征灵敏度分析、Tree Shapley 附加解释 (Tree SHAP) 和 Anchor 开发了一个多级 XAI 模型,以深入探索 VAE-NGBoost 的决策机制,进一步增强基于树的集成模型在预测岩爆发生方面的可靠性。
背景:全球约 7% 的人口患有先天性血红蛋白疾病,每年有超过 300,000 例 β-地中海贫血新病例。在低收入地区,诊断成本高昂且不准确,通常依赖于全血细胞计数 (CBC) 测试。本研究采用机器学习 (ML) 根据性别和 CBC 对 β-地中海贫血特征进行分类,探索对无症状携带者和非携带者进行分组的影响。方法:数据集包括来自斯里兰卡的 288 名疑似 β-地中海贫血患者。使用 11 个判别公式和 9 个 ML 模型对其进行分类。使用马哈拉诺比斯距离去除异常值,并使用合成少数过采样技术 (SMOTE) 和 SMOTE- 名义连续 (NC) 进行重采样。Mann-Whitney U 检验处理特征提取和类别分组。使用八个标准评估 ML 性能。结果:Ehsani 公式通过将沉默携带者和非携带者分组,实现了 0.66 的受试者工作特征曲线下面积 (ROC-AUC)。未进行特征提取的卷积神经网络 (CNN) 表现出更好的性能,准确率为 0.85、灵敏度为 0.8、特异性为 0.86,ROC-AUC 为 0.95/0.93(微观/宏观)。即使没有预处理,性能也能保持。结论:在使用性别和 CBC 特征对 β - 地中海贫血进行分类时,ML 模型优于经典判别公式。更大的数据集可以增强 ML 模型的泛化能力和特征提取的影响。将沉默携带者和非携带者分组可改善 ML 结果,尤其是在重新采样的情况下。就可用特征而言,沉默携带者与非携带者无法区分。
描述 一套全面的函数,提供用于网络元分析的频率学派方法 (Balduzzi 等人,2023 年) < doi:10.18637/jss.v106.i02 > 并支持 Schwarzer 等人 (2015 年) < doi:10.1007/978-3-319-21416-0 >,第 8 章“网络元分析”: - 遵循 Rücker (2012) < doi:10.1002/jrsm.1058 > 的频率学派网络元分析; - 治疗组合的加性网络元分析 (Rücker 等人,2020 年) < doi:10.1002/bimj.201800167 >; - 使用 Mantel-Haenszel 或非中心超几何分布方法 (Efthimiou et al., 2019) < doi:10.1002/sim.8158 >,或惩罚逻辑回归 (Evrenoglou et al., 2022) < doi:10.1002/sim.9562 > 对二元数据进行网络荟萃分析; - 按累积排名曲线下表面 (SU-CRA) 对治疗进行排名图和排名 (Salanti et al., 2013) < doi:10.1016/j.jclinepi.2010.03.016 >; - 按照 Rücker & Schwarzer (2015) < doi:10.1186/s12874-015-0060-8 >,使用 P 分数(无需重采样的 SUCRA 频率学派类似物)对治疗进行排名; - 拆分直接和间接证据以检查一致性 (Dias et al., 2010) < doi:10.1002/sim.3767 >, (Efthimiou et al., 2019) < doi:10.1002/sim.8158 >; - 带有网络荟萃分析结果的排行榜; - “比较调整”漏斗图 (Chaimani & Salanti, 2012) < doi:10.1002/jrsm.57 >; - 按照 Krahn 等人 (2013) < doi:10.1186/1471-2288- 13-35 > 的净热图和基于设计的 Cochran's Q 分解; - 由 König 等人 (2013) < doi:10.1002/sim.6001 > 描述的表征两种治疗之间证据流的测量值; - 按照 Rücker 和 Schwarzer (2016) < doi:10.1002/jrsm.1143 > 的描述自动绘制网络图;