摘要。确保获得安全饮用水是一个基本的公共卫生优先事项。评估水质的传统方法是劳动力密集的,需要专门的设备,这对于连续监测可能是不可行的。本研究探讨了基于各种化学特性的机器学习模型来预测浸水性。具体来说,我们在存在阶级不平衡的情况下评估了逻辑回归和随机森林模型的性能,这是环境数据集中常见的问题。为了减轻这种情况,我们应用了合成的少数群体过采样技术(SMOTE)。我们的结果表明,在应用SMOTE之前,这两种模型均对多数类(非替代水)表现出很大的偏见,其精度为69.36%,Roc-AUC的准确性为0.63。然而,Smote的应用显着提高了该模型鉴定饮用水样品的能力,尤其是对于随机森林模型,该模型的准确度为67.07%,而Roc-auc的精度为0.64。相比之下,逻辑回归模型显示了SMOTE后的性能下降,这表明需要进一步优化或替代方法。本研究强调了解决机器学习任务中类不平衡的重要性,尤其是对于水质评估等关键应用程序。我们的发现表明,随机森林模型与Smote相结合,为预测浸水性提供了强大的解决方案。这些见解可以帮助环境科学家和公共卫生官员实施更高效,更准确的水质监测系统。未来的研究应探索更广泛的模型和高级技术,以进一步提高预测准确性。
医院感染和抗菌素耐药性(AMR)在全球范围内作为强大的医疗挑战。以实验室测试为指导,要解决这些问题,各种感染控制方案和个性化治疗策略,旨在检测血流感染(BSI)并评估AMR的潜力。在这项研究中,我们基于多目标符号回归(MOSR)引入了一种机器学习(ML)方法,这是一种进化方法,以一种以多目标的方式创建ML模型的形式,以克服标准单目标方法的限制。此方法利用入院后容易获得的临床数据,目的是预测BSI和AMR的存在。我们通过使用自然不平衡的现实世界数据和数据通过过度采样技术来进行比较,进一步评估了其性能。我们的发现表明,传统的ML模型在所有培训方案中均表现出低于标准的表现。相比之下,专门配置的MOSR也可以通过优化F1分数来最大程度地减少假否定因素,胜过其他ML算法,并始终如一地提供可靠的结果,而不论训练集平衡都以F1分数为单位。22和28比其他任何其他选择高。28。这项研究意味着在增强抗臭虫管理(AMS)策略方面的前进道路。值得注意的是,MOSR方法可以很容易地大规模实施,提供了一种新的ML工具,以找到受到有限数据可用性影响的这些关键医疗保健问题的解决方案。
经典蒙特卡罗采样技术中存在的符号问题阻碍了对量子色动力学 (QCD) 大夸克化学势区域的定量理解,例如与相对论重离子碰撞或中子和夸克星相关的区域。克服 QCD 符号问题的技术包括重新加权、马约拉纳算法和 Meron 簇算法、随机量化和复朗之万动力学、泰勒展开、解析延续以及路径变形和复化,有关最新综述,请参见参考文献 [ 2 , 3 ]。相反,量子计算和模拟技术不会受到符号问题的影响。它们通过直接量子模拟格点规范理论 (LGT),为进入 QCD 相图的不可接近区域提供了一条有希望的途径,例如请参见参考文献 [ 1 , 4 – 15 ]。然而,热量子态(即混合量子态,而非纯量子态)对于量子计算机来说,是天真的“非自然”的,这使得热系统模拟成为一个广泛研究的领域,并通过多种技术进行了解决,例如,参见参考文献 [16-20]。量子计算热系统的一种有前途的途径是统计力学的热纯量子(TPQ)态公式 [21]。虽然最初开发时并没有考虑量子技术,但它为模拟有限温度和化学势下的量子系统提供了一条有前途的途径,使得人们能够仅从热力学极限下适当准备的单个纯态估计一大类可观测量的热期望值 [22,23]。正则 TPQ 态是从虚时间内演化的 Haar 随机态获得的 [21],
背景:乳腺癌是全球领先的健康问题,需要在复发预测和管理方面取得进步。使用CHATGPT的基于人工智能(AI)的临床决策支持系统(AI-CDSS)的开发解决了这一需求,目的是提高预测准确性和用户可访问性。目的:本研究旨在为基于Web的AI-CDSS应用程序开发和验证高级机器学习模型,利用ChatGPT的问答指导能力来增强数据的预处理和模型开发,从而改善了乳腺癌复发的预测。方法:这项研究的重点是通过利用3577名患者的三级医院乳腺癌注册中心(2004-2016)的数据来开发先进的机器学习模型。作为三级医疗中心,它接受了四个分支机构的推荐,即北部地区的3个分支机构和我们国家一个离岸岛上的1个分支机构,可以管理慢性疾病,但将包括乳腺癌在内的复杂手术病例转到主要中心,富含我们研究人群的多样性。模型培训从2004年到2012年使用了患者数据,随后使用2013年至2016年的数据进行了验证,从而确保了我们的预测模型的全面评估和鲁棒性。chatgpt是预处理和模型开发,有助于激素受体分类,年龄构成和单次编码的组成部分。诸如综合少数族裔过采样技术之类的技术解决了数据集的不平衡。使用了各种算法,包括轻梯度增强机,梯度提升和极端梯度提升,并使用诸如曲线下的面积,准确性,灵敏度和F 1尺度的指标评估它们的性能。
我们开展了一项研究来评估梯度提升算法在岩爆评估中的潜力和稳健性,建立了一个变分自动编码器(VAE)来解决岩爆数据集的不平衡问题,并提出了一种针对基于树的集成学习的多级可解释人工智能(XAI)。我们从现实世界的岩爆记录中收集了537个数据,并选择了四个导致岩爆发生的关键特征。首先,我们使用数据可视化来深入了解数据的结构,并进行相关性分析以探索数据分布和特征关系。然后,我们建立了一个VAE模型来为由于类别分布不平衡而产生的少数类生成样本。结合VAE,我们比较和评估了六种最先进的集成模型,包括梯度提升算法和经典逻辑回归模型,用于岩爆预测。结果表明,梯度提升算法优于经典的单一模型,而 VAE 分类器优于原始分类器,其中 VAE-NGBoost 模型的结果最为理想。与针对不平衡数据集结合 NGBoost 的其他重采样方法(例如合成少数族群过采样技术 (SMOTE)、SMOTE 编辑最近邻 (SMOTE-ENN) 和 SMOTE-tomek 链接 (SMOTE-Tomek))相比,VAE-NGBoost 模型的效果最佳。最后,我们使用特征灵敏度分析、Tree Shapley 附加解释 (Tree SHAP) 和 Anchor 开发了一个多级 XAI 模型,以深入探索 VAE-NGBoost 的决策机制,进一步增强基于树的集成模型在预测岩爆发生方面的可靠性。
背景:全球约 7% 的人口患有先天性血红蛋白疾病,每年有超过 300,000 例 β-地中海贫血新病例。在低收入地区,诊断成本高昂且不准确,通常依赖于全血细胞计数 (CBC) 测试。本研究采用机器学习 (ML) 根据性别和 CBC 对 β-地中海贫血特征进行分类,探索对无症状携带者和非携带者进行分组的影响。方法:数据集包括来自斯里兰卡的 288 名疑似 β-地中海贫血患者。使用 11 个判别公式和 9 个 ML 模型对其进行分类。使用马哈拉诺比斯距离去除异常值,并使用合成少数过采样技术 (SMOTE) 和 SMOTE- 名义连续 (NC) 进行重采样。Mann-Whitney U 检验处理特征提取和类别分组。使用八个标准评估 ML 性能。结果:Ehsani 公式通过将沉默携带者和非携带者分组,实现了 0.66 的受试者工作特征曲线下面积 (ROC-AUC)。未进行特征提取的卷积神经网络 (CNN) 表现出更好的性能,准确率为 0.85、灵敏度为 0.8、特异性为 0.86,ROC-AUC 为 0.95/0.93(微观/宏观)。即使没有预处理,性能也能保持。结论:在使用性别和 CBC 特征对 β - 地中海贫血进行分类时,ML 模型优于经典判别公式。更大的数据集可以增强 ML 模型的泛化能力和特征提取的影响。将沉默携带者和非携带者分组可改善 ML 结果,尤其是在重新采样的情况下。就可用特征而言,沉默携带者与非携带者无法区分。
本研究检查了内部驱动因素,外部压力,绿色企业家取向(GEO)之间的相关性。在Lumajang的木材加工公司的背景下,本研究研究了绿色供应链管理(GSCM)实践和绩效如何相互作用。该研究依赖于基于制度理论和基于自然资源的观点(NRBV)理论的理论基础来彻底探索和理解这些复杂的互连。数据是从98个木材加工公司的样本中收集的,该公司在2020年1月至2022年3月三个月内使用饱和的采样技术,直到2020年,在Lumajang地区林业办公室注册为原始木材森林产品行业(IPHHK)。该研究的数据分析是使用结构方程建模(SEM)进行的,后者使用部分最小二乘(PLS)方法。分析结果表明,内部驱动因素不会对绿色供应链管理(GSCM)性能产生重大影响。相反,外部压力和绿色企业家取向(GEO)对GSCM性能具有显着且统计学上的显着影响。此外,GSCM实践起着至关重要的中介作用,完全介导了内部驱动因素与GSCM性能之间的相关性,并部分介导了外部压力,GEO和GSCM性能之间的相关性。这项研究对管理人员,供应链专家和Lumajang木材加工业决策者具有实际影响。它阐明了特定驱动因素在将GSCM实践付诸实践并达到提高的性能水平方面的重要性。未来的研究应考虑扩大样本量,扩大调查范围,探索其他研究途径以及实施纵向设计,以调查绿色供应链的整合和企业行为。
这项研究的目的是分析金融知识与财务绩效之间的关系,金融素养与中小企业可持续性之间的关系,供应链管理与财务绩效之间的关系,供应链管理与中小企业的可持续性之间的关系以及与中小企业可持续性的财务绩效。此研究方法是一项定量调查,通过向印度尼西亚的740个中小型企业所有者分发在线问卷来获得研究数据。数据分析使用SMARTPLS 3.0软件工具的结构方程建模(SEM)。数据分析的阶段是有效性,可靠性和显着性测试。所使用的采样技术是非概率采样。本研究中使用的问卷使用了Google表格,分发给受访者。该问卷的测量方法使用李克特量表为5,即强烈不同意(STS),(2)答案不同意(ts),(3)中性答案(n),(4)答案同意(S),强烈同意(SS)。本研究中使用的自变量如下:财务素养,供应链管理,本研究中使用的因变量是可持续性和财务绩效。这项研究的新颖性在于,它发现了在以前的研究中不存在的中小企业中金融素养,供应链管理,财务绩效和可持续性变量之间关系的相关模型。这项研究的结果表明,金融素养对财务绩效产生积极和显着的影响,金融素养对可持续性产生积极和显着的影响,供应链管理对财务绩效产生积极和显着的影响,供应链管理对可持续性具有积极和显着的影响,财务绩效对可持续性产生积极和显着的影响。
准时毕业对于学术成功,影响时间,成本和教育质量至关重要。Hang Tuah University Pekanbaru(UHTP)目前正在努力实现其准时毕业率75%的目标。这项研究介绍了一种使用机器学习技术的创新方法,尤其是与堆叠机器学习Optuna Smote(SMLOS)的合奏学习,以解决此问题。我们的主要目标是提高数据分类精度,以有效地预测学生毕业时间。我们采用算法,例如K-Nearest邻居(KNN),支持向量机(SVM),决策树(C4.5),随机森林(RF)和Naive Bayes(NB)。这些与元模型结合使用,包括逻辑回归(LR),Adaboost,XGBoost,LR+Adaboost和LR+XGBoost,以创建一个强大的预测模型。为了解决阶级失衡,我们应用了合成少数族裔超采样技术(SMOTE),并利用Optuna进行超参数调整。调查结果表明,使用Adaboost Meta模型的Smlos达到了95.50%的最高精度,超过了以前的模型的性能,平均含量约为85%。这种贡献证明了将SMOTE用于类不平衡和Optuna进行超参数优化的有效性。将此模型整合到UHTP的学术信息系统中,促进了对学生数据的实时监控和分析,为通过更准确的学生绩效预测提供了一种新颖的解决方案来促进智能校园。此技术不仅有益于预测学生毕业,还可以应用于各种机器学习任务以提高数据分类的准确性和稳定性。
摘要 - 情绪分析在理解公众情绪方面起着至关重要的作用,尤其是在数字通信领域,因为每天都会产生大量的文本数据。本研究深入探讨了情绪分类模型,即朴素贝叶斯分类器 (NBC) 和支持向量机 (SVM),在情绪分析任务中经常遇到的不平衡数据集中的有效性。采用比较分析方法,以来自在线平台的机器人酒店评论数据集作为评估的基础。NBC 和 SVM 模型都经过训练和评估,使用和不使用合成少数过采样技术 (SMOTE),以纠正类别不平衡。性能评估依赖于关键指标,包括准确度、召回率、精确度、f 测量和曲线下面积 (AUC) 来衡量模型的有效性。研究结果表明,SVM 在准确率(SVM:76.88%,NBC:67.43%)、精确率(SVM:92.03%,NBC:86.87%)、召回率(SVM:58.88%,NBC:41.00%)、f 值(SVM:71.78%,NBC:55.63%)和 AUC(SVM:0.907,NBC:0.961)方面均优于 NBC。引入 SMOTE 后,两种模型的性能均显著提升,尤其是在解决类别不平衡问题方面。虽然 NBC 在精确率和召回率指标上表现更为均衡,但 SVM 在情感分类任务中展现出更高的准确率和预测能力。这些发现强调了算法选择和预处理技术在优化情感分析性能方面的关键作用,从而为从业者和研究人员提供了宝贵的见解。