这项横断面研究采用了一份在线问卷,该问卷改编自阿卜杜拉曼(Abdulrahman)等人先前的一项研究,他采用了从密歇根州糖尿病研究中心获得的“糖尿病知识测试(DKT)”问卷调查,并转化为阿拉伯语。相应的作者授予在我们的项目中使用它[8]。修改了人口统计部分以与我们的研究人群保持一致。问卷是在GoogleForm®上创建的,分为三个部分:人口统计学,知识,态度和实践。随后,数据收集器通过数字平台分发给参与者,以使用便利采样技术在2022年7月至2022年11月之间收集数据。在调查开始时包括知情同意书和信息真实性的声明,参与是自愿的。根据95%的置信度,2.7%的误差和23%的人口比例确定最小样本量为934。研究参与者由诊断为T2DM的沙特阿拉伯和非苏尼族成年人(> 18岁)组成,在研究期间居住在沙特阿拉伯,并从公共或私人医疗机构获得医疗保健,无论其疾病持续时间如何。排除标准包括T1DM,孕妇和居住在沙特阿拉伯以外的参与者。使用SPSS(IBM Corp.,Armonk,NY)分析了数据,并对结果进行了审查,列表和比较统计显着性。<= 0.05的p值被认为具有统计学意义。因变量是患者的知识,态度和实践,而自变量是社会人口统计学特征。
卷积神经网络13证明了蛋白质序列可以在DTI预测中提供有用的信息。Mahmud等人开发了iDTi-CSsmoteB网络服务器,使用XGBoost和过采样技术,基于PubChem指纹和各种蛋白质序列特征预测DTI。14然而,上述方法的数据质量并不令人满意,因为阴性数据是任意选择的。其他几项研究也这样做了。15-17其中一些使用随机非阳性DTI作为阴性样本。然而,非阳性DTI并不一定是阴性的,因为它们还没有经过验证。其中一些在验证后可能是阳性的。因此,使用高质量数据构建预测模型具有重要意义。在本研究中,我们开发了一个机器学习模型,使用化学结构和蛋白质序列作为特征来预测DTI。采用流水线技术封装特征数据标准化、SMOTE采样过程和机器学习估计器,以避免过度拟合并提高模型泛化能力。整个工作流程如图1所示。简而言之,从各种来源收集了超过40 000个具有解离常数(kd)值的DTI。用PaDEL-Descriptor和RDKit计算五种分子指纹和描述符。通过PSI-Blast和POSSUM工具包提取蛋白质序列特征。用5种机器学习方法和6种特征表示方法建立了30个DTI预测模型,其中Morgan-PSSM-SVM模型(MPSM-DTI)被验证为最佳模型。在案例研究中,MPSM-DTI模型在DTI预测中表现出了令人满意的能力。
太阳高能粒子 (SEP) 是空间天气中最危险的事件之一。在过去的几十年中,已经开发出多种技术来预测 SEP 的发生,主要基于 > 10 MeV 质子通量与某些前兆(例如太阳耀斑、日冕物质抛射等)之间的统计关联。在本文中,我们重点关注太阳质子事件实时警报 (ESPERTA) 的经验模型,该模型通过考虑三个输入参数来预测≥ M2 太阳耀斑发生后的 SEP 事件:耀斑源区经度、软 X 射线通量和 ∼ 1 MHz 的射电通量。在这里,我们在监督学习框架中重塑了 ESPERTA 模型,并对预测模型进行了交叉验证,同时应用了罕见事件校正(即数据过采样和损失函数加权),因为 SEP 发生的高度不平衡性。使用合成少数过采样技术可获得最佳性能,检测概率为 0.83,误报率 (FAR) 为 0.39。尽管如此,与不平衡情况相比,验证分数的改善很小。SEP 预测的相关 FAR 是样本基准率的自然结果。综上所述,我们给出的证据表明,预测 SEP 事件的统计方法应考虑以下因素:1) 需要根据 SEP 事件的预期发生情况校准模型,2) 决策阈值对模型性能有很强的影响,3) 模型中使用的特征,如果单独考虑,无法完全区分参数空间中的事件类别,因此使用处理不平衡问题的技术并不能保证更好的性能。
本文研究了人工智能应用对尼日利亚当代广播媒体实践的影响。(AI)人工智能应用程序的概念继续引起不同学者和专业人士的争议和关注。ai作为世界最新技术,通过第四次工业革命加入。这是一种能够模仿人类认知功能的机器智能,例如学习,理解和解决问题。AI有能力撰写文章,新闻报道以及影响编辑过程。研究目标是确定广播运营商中对AI应用的理解水平,以找出AI内容创建和交流的作用以及AI应用程序在尼日利亚IMO州OWORERI的广播媒体媒体中的AI应用的影响。该研究通过使用问卷调查和访谈作为数据收集的研究工具采用了一种研究方法,以吸引媒体从业者和学者,讨论他们对AI技术的理解水平。根据在线样本大小配方的Survey Monkey表示,该研究的抽样尺寸为399。采用的采样技术是简单的随机抽样。数据以表格和简单百分比表示。研究结果表明,181位受访者强烈同意对新技术及其功能能力有所了解,因为AI越来越多地成为我们日常生活的一部分。其他发现表明,媒体部门正在迅速发展AI的应用。因此,研究人员得出的结论是,媒体组织和专业人员应接受该技术并利用它来改善媒体实践。
摘要:信用卡在当今的数字经济中起着至关重要的作用,并且它们的用法最近增长了,伴随着信用卡欺诈的相应增加。机器学习(ML)算法已用于信用卡欺诈检测。但是,信用卡持有人的动态购物模式和类不平衡问题使ML分类器难以实现最佳性能。为了解决这个问题,本文提出了一种可靠的深入学习方法,该方法由长期记忆(LSTM)和门控复发单元(GRU)神经网络组成,作为基础学习者在堆叠集合框架中,并以多层次的perceptron(MLP)作为元学习者。同时,使用混合综合少数族裔过采样技术和编辑的最近的邻居(Smote-enn)方法来平衡数据集中的类别分布。实验结果表明,将拟议的深度学习合奏与Smote-enn方法相结合,分别达到了1.000和0.997的敏感性和特异性,这比文献中其他广泛使用的ML分类器和方法优于其他广泛使用的ML分类器和方法。接下来,我们介绍了高级集合模型,包括堆叠和投票分类器,对原始和Smote-enn数据集进行评估。此外,具有SQLite集成的烧瓶框架可以使用户注册,签名和测试增强了项目功能和用户交互。索引术语 - 信用卡,深度学习,集合学习,欺诈检测,机器学习,神经网络。
太阳高能粒子 (SEP) 是空间天气中最危险的事件之一。在过去的几十年中,人们开发了各种各样的技术来预测 SEP 的发生,这些技术主要基于 > 10 MeV 质子通量与某些前兆(例如太阳耀斑、日冕物质抛射等)之间的统计关联。在本文中,我们将重点介绍太阳质子事件实时警报 (ESPERTA) 的经验模型,该模型通过考虑三个输入参数来预测≥ M2 太阳耀斑发生后的 SEP 事件:耀斑源区经度、软 X 射线通量和 ∼ 1 MHz 的射电通量。在这里,我们在监督学习框架中重塑了 ESPERTA 模型,并对预测模型进行了交叉验证,同时还应用了罕见事件校正(即数据过采样和损失函数加权),因为 SEP 的发生具有高度不平衡性。使用合成少数过采样技术可获得最佳性能,检测概率为 0.83,误报率 (FAR) 为 0.39。尽管如此,与不平衡情况相比,验证分数的改善很小。SEP 预测的相关 FAR 是样本基率的自然结果。总之,我们给出的证据表明,预测 SEP 事件的统计方法应考虑以下因素:1) 需要根据 SEP 事件的预期发生情况校准模型,2) 决策阈值强烈影响模型性能,3) 模型中使用的特征,如果单独考虑,则无法完全分离参数空间中的事件类别,因此使用处理不平衡问题的技术并不能保证更好的性能。
摘要 — 中风是脑血管的一种严重神经缺陷,当部分脑部血液供应不足或停止使脑细胞缺氧时就会发生。它会导致各种形式的身体失衡。它是全世界导致疾病和死亡的主要原因之一。20-25% 的中风幸存者有严重的损伤,这与死亡风险增加有关。及早识别众多中风警告信号可以预防中风。在本研究中,我们开发了一种基于集成学习的机器学习架构,能够分析中风患者数据集并准确预测和识别中风特征。首先,收集中风数据集,然后使用合成少数过采样技术 (SMOTE) 来平衡它。然后,我们实施了几种机器学习技术,例如决策树、朴素贝叶斯、K 最近邻、随机森林、极端梯度提升、多层感知器、Ada Boost 和我们提出的集成框架。在优化超参数后,我们提出的框架在所有机器学习分类器中表现出最高的准确率 (99.90%)。我们使用机器学习 (信息增益、相关性和缓解 F) 和统计特征选择技术将年龄、BMI、平均血糖水平、心脏病确定为重要的中风指标。使用 SHapley Additive exExplanations (SHAP) 方法来确定每个属性对模型结果的影响。我们相信我们提出的框架可以帮助医生和临床医生开处方并尽早发现潜在的中风。
本研究引入了一种创新的机器学习框架,以提高糖尿病预测准确性和模型可解释性。该方法首先通过链式方程 (MICE) 进行多次插补,以解决缺失数据并确保完整的数据集以供分析。为了解决类别不平衡问题,采用了合成少数过采样技术 (SMOTE)。使用 Z 分数异常值检测来去除异常值,进一步提高模型的稳健性。结合灰狼优化器 (GWO) 和方差分析的混合特征选择方法混合 GWAN 优化了相关特征的选择,平衡了预测能力和模型简单性。该框架的核心是自适应增强梯度增强机 (ADGB),这是一种融合了 AdaBoost 和梯度增强机 (GBM) 优势的集成学习模型。通过 Hyperband 算法进行超参数优化可以对模型进行微调,实现 97.84% 的高预测准确率。这种综合方法不仅提高了准确性,还提高了预测模型的精度、召回率和 F1 分数。通过整合这些先进技术,该框架在早期糖尿病诊断中展现出巨大潜力,强调了集成方法在医疗数据分析中的重要性以及开发可靠诊断工具的准确、可解释模型的必要性。关键词:灰狼优化器、梯度提升机、合成少数群体、公共健康 1. 介绍
摘要背景:在新药研发研究中,传统的湿实验周期较长,通过计算机模拟预测药物-靶标相互作用(DTI)可以大大缩小候选药物的搜索范围,优秀的算法模型可能更有效地揭示药物、蛋白质等相关数据构成的生物信息网络中药物与靶标之间的潜在联系。结果:本工作开发了一种异构图神经网络模型HGDTI,包括网络节点嵌入的学习阶段和DTI分类的训练阶段。该方法首先获取药物的分子指纹信息和蛋白质的伪氨基酸组成信息,然后通过Bi-LSTM提取节点的初始特征,并利用注意力机制聚合异构邻居。在多个对比实验中,HGDTI的整体性能明显优于其他最先进的DTI预测模型,并采用负采样技术进一步优化模型的预测能力。此外,我们通过异构网络内容缩减测试证明了HGDTI的鲁棒性,并通过其他对比实验证明了HGDTI的合理性。这些结果表明HGDTI可以利用异构信息来捕获药物和靶标的嵌入,为药物开发提供帮助。结论:基于异构图神经网络模型的HGDTI可以利用异构信息来捕获药物和靶标的嵌入,为药物开发提供帮助。为了方便相关研究人员,我们在http://bioinfo.jcu.edu.cn/hgdti建立了一个用户友好的Web服务器。
摘要:研究人员已经提出了几种基于机器学习和数据挖掘技术的自动诊断系统来预测心力衰竭。然而,研究人员并没有密切关注预测心脏病患者的死亡率。为了解决这个问题,我们开发了一个用于预测心脏病患者死亡率的临床决策支持系统。为所提模型的实验目的收集的数据集包含 55 个特征,总共 368 个样本。我们发现数据集中的类别高度不平衡。为了避免机器学习模型中的偏差问题,我们使用了合成少数过采样技术 (SMOTE)。在平衡数据集中的类别后,新提出的系统采用 χ2 统计模型对数据集中的特征进行排序。排名最高的特征被输入到优化的随机森林 (RF) 模型中进行分类。使用网格搜索算法优化 RF 分类器的超参数。使用多种评估指标验证了新提出的模型 ( χ 2 _RF) 的性能,包括准确度、灵敏度、特异性、F1 分数和受试者工作特征 (ROC) 曲线。仅使用数据集中的 10 个特征,提出的模型 χ 2 _RF 就实现了 94.59% 的最高准确度。提出的模型 χ 2 _RF 将标准 RF 模型的性能提高了 5.5%。此外,还将提出的模型 χ 2 _RF 与其他最先进的机器学习模型进行了比较。实验结果表明,新提出的决策支持系统优于使用相同特征选择模块 ( χ 2 ) 的其他机器学习系统。