•绘制一小部分数据点•将模型拟合到这些点•检查与此模型“接近”的点数•用此数字为每个拟合模型评分•使用随机采样进行许多试验•选择具有最高分数的模型•使用此模型检测和删除异常值•使用此模型•剩余点是“好”点
软件成本估计(SCE)是构建网络物理 - 社会系统(CPSS)的研究重点和挑战之一。在CPSS中,要准确处理环境和社会信息并使用它来指导社会实践。因此,在回应SCE的预测准确性低,鲁棒性和可解释性差的问题时,本文提出了基于自动编码器和随机森林的SCE模型。首先,预处理项目数据,删除异常值,然后构建回归树以在数据中缺少属性中填充。第二,构建一个自动编码器,以降低影响软件成本的因素的维度。随后,使用三个数据集上的XGBoost框架(Cocomo81,Albrecht和Desharnais)对模型的性能进行了训练和验证,并与常见的成本预测模型进行了比较。实验结果表明,COCOMO81数据集上提出的模型的MMRE,MDMRE和PRED(0.25)值分别达到0.21、0.16和0.71。与其他模型相比,所提出的模型在准确性和鲁棒性方面取得了重大改进。
摘要:充血性心力衰竭(CHF)是全球人口中死亡率和发病率的主要来源之一。全球超过2600万个人受心脏病的影响,其患病率每年增加2%。随着医疗保健技术的进步,如果我们在早期阶段预测CHF,则可以减少全球领先的死亡率因素之一。 因此,这项研究的主要目的是使用机器学习应用来增强CHF的诊断,并通过采用最低特征来预测发生CHF的可能性,以降低诊断成本。 我们使用深层神经网络(DNN)分类器进行CHF分类,并将DNN的性能与各种机器学习分类器进行比较。 在这项研究中,我们使用了一个非常具有挑战性的数据集,称为心血管健康研究(CHS)数据集,以及通过整合C4.5和K-Nearest邻居(KNN)的独特预处理技术。 虽然C4.5技术用于查找重要功能并从数据集中删除异常数据,但使用KNN算法用于缺失数据。 为分类,我们比较了六个最先进的机器学习(ML)算法(KNN,Logistic回归(LR),Naive Bayes(NB),Random Forest(RF),支持向量机(SVM)和决策树(DT))。 为了评估性能,我们使用七个统计测量值(即准确性,特异性,灵敏度,F1得分,精度,Matthew的相关系数和假阳性率)。 提出的模型获得了97.03%的F1得分,95.30%的精度,96.49%的灵敏度和97.58%的精度。随着医疗保健技术的进步,如果我们在早期阶段预测CHF,则可以减少全球领先的死亡率因素之一。因此,这项研究的主要目的是使用机器学习应用来增强CHF的诊断,并通过采用最低特征来预测发生CHF的可能性,以降低诊断成本。我们使用深层神经网络(DNN)分类器进行CHF分类,并将DNN的性能与各种机器学习分类器进行比较。在这项研究中,我们使用了一个非常具有挑战性的数据集,称为心血管健康研究(CHS)数据集,以及通过整合C4.5和K-Nearest邻居(KNN)的独特预处理技术。虽然C4.5技术用于查找重要功能并从数据集中删除异常数据,但使用KNN算法用于缺失数据。为分类,我们比较了六个最先进的机器学习(ML)算法(KNN,Logistic回归(LR),Naive Bayes(NB),Random Forest(RF),支持向量机(SVM)和决策树(DT))。为了评估性能,我们使用七个统计测量值(即准确性,特异性,灵敏度,F1得分,精度,Matthew的相关系数和假阳性率)。提出的模型获得了97.03%的F1得分,95.30%的精度,96.49%的灵敏度和97.58%的精度。总的来说,我们的结果反映了我们提出的综合方法,从CHF预测方面,它优于其他机器学习算法,从而减少了医疗测试的数量来减少患者费用。
基因座 - 甲肾上腺素能系统的抽象背景功能障碍发生在阿尔茨海默氏病,在某些患者中导致认知和神经精神症状。该系统提供了潜在的治疗靶标,尽管甲肾上腺素能治疗目前尚未在临床实践中使用。目的是评估主要具有去甲肾上腺素作用在改善阿尔茨海默氏病认知和神经精神症状方面的药物的功效。方法从1980年到2021年12月,搜索了GoV数据库。我们使用随机效应荟萃分析生成了汇总估计。结果我们包括了19项随机对照试验(1811名患者),其中6例被判断为“良好”质量,7种为“公平”和6个“贫穷”。对其中10项研究(1300名患者)的荟萃分析表明,甲肾上腺素药物对全球认知的显着较小的积极作用,使用微型精神状态检查或阿尔茨海默氏病评估量表测量 - 认知分量表 - 标准化的平均差异(SMD):0.14,95%CI:0.14,95%CI:0.03至0.25至0.25,p = 0.05 = 0.05; I)对注意力的度量没有显着影响(SMD:0.01,95%CI:-0.17至0.19,p = 0.91; i 2 = 0)。冷漠的荟萃分析包括八项试验(425例),并检测到去甲肾上腺素能药物的阳性作用(SMD:0.45,95%CI:0.16至0.73,p = 0.002; i 2 = 58%)。在删除异常值以解释整个研究中的异质性后,这种积极效果仍然存在。但是,在设计未来的临床试验之前,应考虑几个因素。讨论重新利用已建立的去甲肾上腺素药物最有可能在阿尔茨海默氏病以进行一般认知和冷漠的情况下提供有效的治疗方法。这些包括靶向适当的患者亚组,并了解单个药物的剂量影响及其与其他治疗的相互作用,以最大程度地降低风险并最大程度地提高治疗作用。Prospero注册号CRD42021277500。
背景:获得的乳沟是冠心手术的既定并发症,影响了2-9%的患者。CHD使儿童有未能壮成长的风险,随后的室友会施加额外的风险。目的:我们进行了回顾性图表审查,以确定2018年至2022年CHD手术后受乳腺癌影响的儿童的营养和生长的定量标记与对照组相比。方法:我们在新奥尔良的儿童医院使用了电子病历系统,针对<18岁的受试者,他们在2018年至2022年之间接受了CHD手术,并开发了随后的Chylothorax。使用国际疾病代码分类的第10修订(ICD-10代码:J94.0,I89.8和J90.0)确定了研究对象。每个乳糜曲线案例(n = 20)均通过步骤类型和年龄匹配,而没有乳糜胸(n = 20)。数据记录在REDCAP中,并使用SPSS分析。结果:删除异常值后,我们分析了19个总匹配对。生长速度(p = 0.12),体重变化(p = 0.95)(p = 0.95),体重变化(p = 0.35)(p = 0.35),z得分变化(p = 0.90)(p = 0.90),z得分变化(z得分变化)(p = 0.21),p = 0.21),p = 0.8 protein(p = 0.8 = = = 0.88)在病例中,线性回归显示最大吉洛斯输出与生长速度之间没有显着关联(P = 0.91),重量变化(运行到放电)(p = 0.15)(p = 0.15)或重量变化(放电式入院)(p = 0.98)。结论:与没有乳房胸腔的患者相比,我们没有观察到乳胸后手术儿童的生长或营养标记具有统计学意义。需要多站点数据收集和分析以更好地确定临床影响并指导临床实践。
背景:HIV测试是艾滋病毒预防的基石,也是实现联合国联合国艾滋病毒/艾滋病联合计划(UNAIDS)到2030年终止艾滋病的目标的关键步骤。尽管有相关的调查数据,但使用机器学习(ML)来分析和预测南非成年人的HIV测试方面仍然存在研究差距。需要进一步的研究来弥合这一知识差距并为改善HIV测试的基于证据的干预措施提供信息。目的:本研究旨在通过在南非反复基于成人人群的调查中应用监督的ML算法来确定HIV检测的一致预测指标。方法:将对多波横断面调查数据进行回顾性分析,以确定18岁及以上的南非成年人对HIV测试的预测因子。将在南非国家艾滋病毒患病率,发病率,行为和传播调查(SABSSM)调查的五个周期中应用一种监督的ML技术。人类科学研究委员会(HSRC)于2002,2005,2008,2012和2017进行了SABSSM调查。可用的SABSSM数据集将导入Rstudio(版本4.3.2; Potit Software,PBC),以清洁和删除异常值。将进行卡方检验,以选择HIV测试的重要预测指标。每个数据集将分为80%的培训和20%的测试样本。逻辑回归,支持向量机,随机森林和决策树。将使用一种交叉验证技术将训练样本划分为K折,包括验证集,并且将对每个折叠进行训练。模型的表现将在验证集上使用评估指标进行评估,例如精度,精度,回忆,F 1 -SCOOR,曲线接收器操作特性下的面积和混淆矩阵。结果:SABSSM数据集是HSRC数据库上可用的打开访问数据集。伦理学的批准是从约翰内斯堡大学研究与伦理委员会于2024年4月23日获得的(REC-2725-2024)。HSRC于2024年8月20日授予作者访问所有五个SABSSM数据集。探索数据集以识别可能影响HIV测试吸收的自变量。这项研究的结果将确定一致的变量,预测20年中南非成年人口的艾滋病毒测试吸收。此外,本研究将评估和比较4种不同ML算法的性能指标,最佳模型将用于开发HIV测试预测模型。
同行评审文件文章信息:https://dx.doi.org/10.21037/tcr-24-1503 #Reviewer A 该研究采用蛋白质组范围的孟德尔随机化 (MR) 方法,利用冰岛人大规模 GWAS 的遗传关联来确定结直肠癌 (CRC) 及其亚型的潜在靶点。主要发现包括鉴定出 31 种与 CRC 具有强有力因果关联的蛋白质,其中一些显示出解剖位点特异性,凸显了 CHDRL2 作为 CRC 及其亚型的共同靶点的重要性。方法学优势在于使用 MR 来最大限度地减少混杂因素和验证 FinnGen 研究的结果。局限性包括潜在的水平多效性和人口结构偏差,因为该研究主要关注欧洲人群,这可能会限制普遍性。尚未解决的问题涉及已识别蛋白质影响CRC发展和进展的确切生物学机制,以及这些发现的临床适用性,特别是关于CRC及其亚型的靶向治疗和个性化治疗策略。我建议作者准确指出靶标的类型,例如治疗靶点。 评论1:在摘要中,作者需要描述工具变量的识别,以及主要的统计分析。 回复1:谢谢您的审阅,我们在摘要中添加了IV信息和MR方法以及相关的统计阈值 正文更改:第32行、35-38行 评论2:在引言的第一段中,将早期识别和新的治疗靶点联系起来很容易引起混淆,因为早期诊断和治疗是不同的。 回复2:谢谢您的审阅,我们在这一部分没有说清楚。因为之前的研究已经证实了循环蛋白与肿瘤之间的相关性(可能具有诊断潜力),所以这些蛋白也是重要的潜在耐药靶点。我们在文章中添加了 正文修改:第89-90行 评论3:在方法论中,请提供MR分析的更多细节,包括工具变量的使用和敏感性分析。 回复3:感谢您的评论,MR-Egger回归和MR-PRESSO用于检测相关的水平多效性。MR-Egger回归使用从回归分析中获得的截距来确定水平多效性。我们假设如果截距等于零,则不存在相关的水平多效性。MR-PRESSO使用失真测试来检测可能表现出水平多效性的异常值,并通过删除异常值进一步校正IVW估计值。这项分析是在我们第一次处理IV时进行的,我们用于通过FDR进一步筛选的数据都是通过MR-PRESSO测试的数据。 正文修改:第152-155行 评论4:在讨论中,作者需要对研究结果的临床意义有更详细的评论。请考虑引用几篇相关论文:
描述能源的可持续性,可用性和负担能力对于经济增长和人类发展至关重要。巴基斯坦的电力部门面临技术,财务和治理赤字的挑战,导致巨额债务目前接近100亿美元(该国国内生产总值的3%)。1这个流动性不足的市场的一个关键原因是,在2015 - 2019年间委托的收费或付款合同发电厂的利用不足,主要基于进口燃料,该燃料产生了巨大的产能支付,导致其份额从2015年的18%增加到2022年的40%。在2022财政年度,全球燃油价格膨胀进一步导致了产能支付的增加,而新的重新加油的液化天然气和煤炭植物的发电量减少。这项债务是该国从残酷的电力短缺转向昂贵的盈余,这是发电能力效率低下的症状。自1990年代后期以来,巴基斯坦的电力市场结构一直是单一建筑模型,其中中央电力采购代理机构(CPPA)作为单一买家,代表前水和电力开发局(WAPDA)分销公司(Discos)购买电力。2020年11月,国家电力电力监管机构(NEPRA)批准了一种竞争性交易双边合同模型(CTBCM),该模型为打开巴基斯坦的批发电力市场提供了路线图,并允许大量的消费者(具有1兆瓦或上面的负载)从Discos购买电力或有能力的供应商。This competitive regime aimed to (i) provide nondiscriminatory open access to all market participants, (ii) improve conditions to attract investments based on credit covers provided by participants and move away from sovereign guarantees, (iii) ensure a trading environment that seamlessly transits into the retail market, (iv) contribute in improving power sector security of supply, (v) strengthen efficiency arising from “competition in the market” and “competition for the市场”(vi)改善批发市场的付款学科,(vii)确保市场上的透明度和可预测性。旨在建立能力并提供政策建议的技术援助(TA),以基于CTBCM的CTBCM介绍和加强在巴基斯坦的电力销售和购买机制,该机制是根据ADB先前的TA开发的,以增强CPPA(保证)有限公司(CPPA-G)。2通过实施批发市场开发引入竞争,目的是(i)灵活地最初为大型消费者而改变电力供应商,然后在零售水平上换取电力; (ii)创建激励措施和水平竞争环境,以允许进入和可持续性的发电组合; (iii)删除异常,以减少参与者对市场条件的不当优势; (iv)将市场释放,并最大程度地减少补贴的提供; (v)确保公开获取信息,以在市场参与者之间进行透明度和公平分配风险分配。
量化研究的重点是使用统计技术量化数据,变量和关系,旨在建立模式,检验假设和做出预测。这种方法广泛应用于心理学,社会学,经济学,健康科学和教育等各个领域。它依赖于结构化数据收集方法,并采用统计分析来解释结果。定量研究依赖于结构化方法来收集和分析数值数据。这种类型的研究涉及使用调查,实验和观察等技术进行系统的数据收集和分析。调查是一种常见方法,用于收集大型样本量的意见或行为,从而使研究人员可以推断出较大的人群。但是,这种方法可以受到响应偏见和限制深度的限制。实验涉及在受控环境中操纵变量,以观察对其他变量的影响,这有助于建立因果关系。实验对变量提供了高度控制,但由于设置有限,它们可能缺乏外部有效性。观察性研究可以在不干预的情况下收集现实数据,通常提供比自我报告的响应更准确的信息。但是,它可能会受到观察者偏见的影响,并且在处理罕见或复杂的行为时很耗时。定量研究采用各种工具来收集数值数据,包括问卷,测试和数字跟踪工具,例如网站流量指标或生理监控设备。2。3。数据分析涉及统计技术,例如描述性统计,推论统计和相关分析,这些技术有助于解释数据中的关系或趋势。这些方法提供了数据的概述,包括均值,中位数,模式,标准偏差和范围。定量研究旨在收集易于分析统计学的结构化数据,使其成为大型样本量的经济高效且耗时的方法。然而,它的局限性包括调查的潜在响应偏见和限制深度,实验中的外部有效性有限以及观察者的观察者偏见。定量研究使用数值数据来分析模式并根据样本结果对人群进行预测。假设检验和回归分析等技术有助于识别具有统计学意义的趋势。这种方法对于比较群体之间的平均值很有用,例如评估教学方法或检查屏幕时间和学术表现之间的相关性。定量研究中的关键概念包括衡量中心趋势(平均值,中值),可变性(标准偏差)和关联(相关系数)的度量。目标是通过关注来自大型的随机样本的数值数据来最大程度地减少研究人员的偏见。但是,定量研究通常缺乏深度并具有刚性结构,因此容易响应或采样偏见。要进行有效的定量研究,必须定义明确的目标,正确选择的方法以及使用的适当统计工具。然后测量结果以分析效果。1。确保样本代表性对于结果的普遍性和可复制性至关重要。通过准确地解释发现并考虑局限性,研究人员可以得出有意义的结论,这些结论有助于科学知识并为数据驱动的决策提供信息。定量方法,例如调查和实验,在包括社会科学和医疗保健在内的各个领域都提供了宝贵的见解。严格的统计分析的使用使研究人员能够做出预测并确定模式,最终为政策和决策过程提供了信息。定量研究定义和方法解释了实验过程,涉及将参与者随机分配给不同的组,一个组接受治疗或干预,而另一种则没有。这是进行实验的分步指南:1。定义研究问题:您想了解什么?提出一个假设:您认为研究问题的答案是什么?设计实验:您将如何操纵变量并衡量结果?**内容分析**:一种分析书面,口头或视觉交流的系统方法。研究人员以各种媒体形式识别并分类特定内容,主题或模式。2。**二级数据分析**:分析其他人从政府报告,以前的研究或大型数据集等来源收集的数据。定量研究使用数字和统计数据来回答问题。它经常衡量态度,行为和观点。1。2。**调查和问卷**:用于从人类样本中收集数据的结构化工具。**实验和受控的观察结果**:在受控设置中进行测量变量并确定因果关系。3。**现有数据源(辅助数据)**:从数据库,档案或以前的研究中收集。1。**数据预处理和清洁**:识别和纠正错误,删除异常值以及确保数据一致性。2。**描述性统计**:使用中心趋势,可变性和形状等措施来汇总和描述数据。3。**推论统计**:通过测试假设,估计参数和做出预测来从样本中推断人口特性。常见推论统计技术包括:1。**假设检验**:评估变量之间关系的重要性或差异。2。**置信区间**:估计可能下降的人口参数的范围。3。**相关性和回归分析**:根据变量检查关系并预测结果。4。**方差分析(ANOVA)**:在多个组或条件之间进行比较均值。统计软件和工具可以有效地执行复杂的分析。流行的统计软件(例如SPSS,SAS和R)帮助研究人员进行各种定量研究。这些包括: *描述性研究:这种类型描述了人口的特征,趋势或行为。2。3。例如,它可能会分析学生在学校中的平均身高,选举中的选民投票或人们吃的普通食品。*相关研究:它检查了两个或多个变量之间的关系。例如,它可以调查收入如何影响幸福或压力会影响体重增加。*实验研究:这种类型通过操纵一个变量(独立)并衡量其对另一种(依赖)的影响来研究因果关系。*准实验研究:类似于实验研究,但由于实际或道德考虑而没有随机参与者的分配。研究人员控制影响结果的其他因素。*纵向研究:它在延长时间内研究了模式。例如,它可能会分析儿童的阅读技能如何发展,或者随着年龄的增长而变化。定量研究具有优势和缺点:优点:1。**客观性**:定量研究的目的是由于其依赖数量和统计方法而公正。**通用性**:它通常涉及大型样本量,增加了适用于更广泛人口的代表性数据的可能性。**可复制性**:使用标准化程序和测量工具增强了可复制性,使其他研究人员可以重复研究并测试发现的可靠性。4。**统计分析**:定量研究采用各种统计技术来进行数据分析,识别模式,关系和关联。5。缺点:1。2。3。**数值精度**:它产生的数值数据可以使用数学计算进行分析,从而可以明确的比较和定量解释。**缺乏上下文理解**:定量研究可能会通过专注于可测量的变量,忽略社会,文化和背景因素来限制复杂现象的探索。**对数字的过分依赖**:它可以优先考虑数值数据而不是定性见解,这可能会导致对主题的表面理解。**有限的应用程序**:由于实验室设置或受控实验的人为性质,结果可能不适用于现实情况。4。**高成本和时间要求**:进行定量研究可能是昂贵且耗时的,尤其是对于长期延长的纵向研究。通过了解这些优势和缺点,研究人员可以为其特定需求选择最合适的定量研究类型。虽然定量研究在识别连接方面表现出色,但通常没有发现这些关系背后的根本原因。它可能会回答诸如“什么”和“多少”之类的问题,但留下了“为什么”未回答。量化数据的过程可能会导致过度简化,对复杂性和细微差别掩盖,这对于对研究主题的深入了解至关重要。定量研究带有大量成本和时间承诺,需要大量资源,包括资金,专业知识以及广泛的数据收集和分析。这种结构化方法还限制了灵活性,使调整研究计划或在收集数据时探索新问题变得更加困难。行动中定量研究的示例包括: *市场研究,调查和问卷的数值数据为业务决策提供了信息 *健康研究,这些研究依赖于治疗效率和疾病普遍性的统计分析 *教育研究,用于研究影响学生绩效和学术成就的因素 *社交科学的绩效 *社交科学和公众的观点,并分析了'或comment'或分析行为 *,以调查了'或commition'或分析行为 * *经济研究,分析经济指标,趋势和模式,通过统计审查来审查财务习惯,使经济学家能够掌握潜在的模式,预测市场行为并制定数据驱动的政策。定性分析通过研究非数字方面的访谈,观察性研究和开放式问卷来深入研究主题,从而对所讨论的现象进行了全面的描述。另一方面,定量研究使用数值数据量化了各种因素之间的关系。它试图通过采用系统收集方法,标准化工具和精确的分析技术来提供普遍适用的见解。这种方法使研究人员能够验证假设,预测结果并为各个学科的决策提供信息。其定义特征包括: *编译数字信息 *采用统计分析技术 *测量和量化现象以识别模式 *研究变量之间的连接 *将发现的概括为广泛的人群 *进行更广泛的实验 *进行实验或进行大量样本大小的调查 *使用大型样本量 *利用统计方法的量化数据,并在统计数据中进行量化数据,并将统计的数据集中在数字方面,并将数字构成数字,并将数字构成数值,并将其置于数字上,并将其进行数字化,并将其汇总到数字上,并将其进行数字化,并将其进行数字化,并将其进行数字化,并将其进行数字化,趋势。