相反,应使用卡方检验和p值来确保真正的关联,而不是依靠套索和RF方法。5-7因此,它们的结果可能有所不同。机器学习中的特征选择可能无法提供真正的关联,原因有几个原因。一个主要问题是过度插入,其中模型,尤其是复杂的模型,捕获噪声而不是训练数据中的真正基础模式。此外,机器学习算法通常会鉴于特征与目标变量之间的相关性,但是这些相关性可能并不意味着因果关系。这种区别至关重要,因为相关并不意味着一个变量会导致另一个变量。另一个挑战是特征选择方法固有的偏差和差异。这些方法可能对使用的特定数据敏感,从而导致偏见或高变化的恢复,这些偏差并不能很好地推广到新数据。此外,不同的算法具有不同的优势和劣势。例如,拉索可能会收缩一些系数为零,可能缺少重要的重要特征,而RF由于其固有的结构而可能会过度强调某些特征。卡方检验和p值是统计方法,可在目标和特征之间提供真正关联。卡方检验和p值测量特征与目标变量之间关联的统计意义,有助于将真实关联与随机噪声区分开。这些方法基于假设检验,提供了一个框架,以测试观察到的关联是否可能是由于偶然的原因。另外,统计方法可以控制混杂变量,以确保确定的关联不是虚假的。最后,统计测试的结果通常可重现,可以在不同数据集中验证。
在TCGA数据中通过单因素cox-Lasso回归分析筛选出9个与预后相关的EMT-RDGs,计算各基因得分,以各基因表达量*风险得分构建CRC风险预后模型,将GEO数据对应值代入公式验证模型效果(Riskscore=TCF15*0.006387445+SIX2*0.000957825+NOG*0.016976643+FGF8*0.047052635+TBX5*0.00178245+SNAI1*0.000456714+PHLDB2*1.08E-05+TIAM1*6.55E-05+TWIST1*6.70E-05)。将GEO数据对应值代入上式验证模型,TCGA训练集低危组总生存期(OS)较长(图2A、C)、GSE40967(HR=0.54857,95%CI=0.41328-0.72814)(图3B)、GSE12954组
本评论提供了对医疗保健中机器学习(ML)应用的深入探索,专门针对接种疫苗的个体的Covid-19预测模型。它强调了ML在疾病预测和预后中的关键作用,从而展示了其在大流行背景下增强医疗保健结果的潜力。Covid-19的主要挑战,例如无症状载体的高传输速率和遏制策略的有效性,以突出ML可以提供显着优势的领域。该研究旨在使用多种监督的ML回归技术(包括线性回归,Lasso,支持向量机和指数平滑)开发用于Covid-19传播的先进预测模型,应用于广泛的COVID-19患者数据集。这次审查产生的见解支持努力与COVID-19并改善公共卫生策略,证明ML对大流行管理和医疗保健的弹性的重要贡献。
摘要,我们通过回归对人口,AFFUENCE和技术(StirPat)模型的扩展影响以及环境Kuznets曲线和机器学习算法结合使用,包括Ridge和Lasso回归,以调查机构对2002年以上22个欧洲联盟的碳发电的影响,以调查机构对2002年以上22个样本的影响。将样本分为两个:具有弱和强大机构的人,我们发现两组之间的结果有所不同。我们的结果表明,机构质量的变化对碳排放的影响有限。政府有效性导致欧盟国家的排放量增加,而机构和问责制导致排放量下降。在机构较弱的团体中,政治稳定和控制腐败的控制降低了碳排放。我们的发现表明,与体制治理相比,诸如人口密度,城市化和能源消耗之类的变量是欧盟碳排放的更重要的决定因素。结果表明,需要协调和一致的政策,这些政策与整个欧盟的气候目标保持一致。
摘要 对患者的创伤性脑损伤 (TBI) 进行预后预测对于临床决策和医疗政策制定至关重要。本研究旨在开发和验证严重创伤性脑损伤 (sTBI) 后住院死亡率的预测模型。我们开发并验证了逻辑回归 (LR)、LASSO 回归和机器学习 (ML) 算法,包括支持向量机 (SVM) 和 XGBoost 模型。其中包括 54 个候选预测因子。模型性能以判别力 (C 统计量) 和校准 (截距和斜率) 来表示。在模型开发方面,纳入了欧洲神经创伤协作 TBI 效果研究 (CENTER-TBI) 中国注册研究中的 2804 名 sTBI 患者。对 CENTER-TBI 欧洲注册研究中的 1113 名 sTBI 患者进行了外部验证。XGBoost 在死亡率预测方面实现了高度判别力,并且其表现优于逻辑回归和 LASSO 回归。本研究建立的XGBoost模型也优于现有的预测模型,包括国际临床试验预后与分析任务(IMPACT)核心模型和国际临床试验预后与分析任务(CRASH)基本模型。当包含54个变量时,XGBoost和SVM在内部验证中达到0.87(95%置信区间[CI]:0.81-0.92)和0.85(95%CI:0.79-0.90)的C统计量,在外部验证中达到0.88(95%CI:0.87-0.88)和0.86(95%CI:0.85-0.87)。简化版的 XGBoost 和 SVM 使用通过递归特征消除 (RFE) 选择的 26 个变量,在内部验证中达到 C 统计量 0.87(95% CI:0.82-0.92)和 0.86(95% CI:0.80-0.91),在外部验证中达到 C 统计量 0.87(95% CI:0.87-0.88)和 0.87(95% CI:0.86-0.87)。但是,当包含的变量数量减少时,ML 和 LR 之间的差异会缩小。所有预测模型都可以通过基于网络的计算器访问。格拉斯哥昏迷量表 (GCS) 评分、年龄、瞳孔对光反射、脑区损伤严重程度评分 (ISS) 以及急性
摘要:机器学习(ML)技术正在越来越多地应用于金融市场,以分析趋势和预测股票价格。在这项研究中,我们比较了嵌入股票交易策略的各种ML算法的价格预测和利润绩效。数据集包含来自中国股票市场CSI 300指数的每日数据,大约17年(2006- 2023年)。我们将投资者情感指标和相关财务因素作为特征纳入。我们训练有素的模型包括支持向量机(SVM),逻辑回归和随机森林。结果表明,SVM模型的表现优于其他模型,在回测的60.52%的超额回报中获得了令人印象深刻的超额回报。此外,我们的研究将标准预测模型(例如Lasso和LSTM)与建议的方法进行了比较,为选择ML算法的用户提供了有价值的见解。最终,这项工作是未来财务应用中知情算法选择的基础。
摘要:销售预测对于当今的企业至关重要,因为它是改善它的关键因素。“销售预测”是一个人使用不同技术来预测即将到来的几周,几个月或几年的销售的过程。在本研究论文中,文献综述是关于不同研究人员应用的机器学习算法来预测沃尔玛的销售。不同的算法研究人员使用的是神经网络,OLS回归,XGBoost,SVM,Lasso回归,随机森林,额外的树回归,KNN和线性回归。从应用的所有算法中,额外的树回归表现良好,精度为98.20%。最后,我们比较了沃尔玛销售的随机森林,额外的树回归,XGBoost算法和KNN回归模型。Xgboost在其中排名最高,最高准确性为98.24%。这项研究证明了在这一销售预测领域中机器学习的潜力,并开辟了广泛的未来研究范围,以提高准确性。
摘要 - 在管理领域中使用定性研究非常重要,因为它可以深入了解复杂现象,并提供有价值的见解,仅定量研究就无法捕获。这项研究是通过批判现实主义的角度进行的,采用了归纳研究方法,一种基础理论研究策略,并作为研究工具,以研究希腊一组海滩供应商在两年内的行为和动态。观察被用作研究工具,以收集有关供应商的活动,互动和策略的丰富和详细数据。在这项研究中,研究人员确定了四种不同类型的海滩供应商:微风,拉索,Midge和Dart。这些类别是根据供应商的观察到的行为,策略和特征开发的。对供应商产品产品的理解为管理从业者和政策制定者制定支持Salesforce的战略提供了宝贵的见解。
1。Tang,L。和Song,P.X。(2016)。回归系数聚类中的融合拉索方法 - 数据整合中的学习参数异质性。机器学习研究杂志,17(113),1-23。2。Zhou,L.,Tang,L.,Song,A.T.,Cibrik,D。和Song,P.X。 (2017)。 识别蛋白质特征的套索方法可预测移植后肾移植物存活。 Biosciences中的统计数据,9(2),431-452。 3。 Tang,L.,Chaudhuri,S.,Bagherjeiran,A。和Zhou,L。(2018)。 通过分裂和串联技术学习大规模序数排名模型。 2018年网站会议的同伴会议记录,1901- 1909年。 4。 Tang,L.,Zhou,L。和Song,P.X。 (2019)。 融合学习算法以结合部分异质的Cox模型。 计算统计,34(1),395-414。 5。 Tang,L.,Zhou,L。和Song,P.X。 (2020)。 通过置信分布在广义线性模型中的分布式推理。 多元分析杂志,176,104567。 6。 Wang,L.,Zhou,Y.,He,J.,Zhu,B.,Wang,F.,Tang,L.,Kleinsasser,M.,Barker,D. (2020)。 一个流行病学预测模型和软件评估了中国的COVID-19流行病的干预措施。 数据科学杂志,18(3),409-432。 7。 Tang,L.,Zhou,Y.,Wang,L.,Purkayastha,S.,Zhang,L.,He,J.,Wang,F。和Song,P.X。 (2020)。 8。 (2020)。Zhou,L.,Tang,L.,Song,A.T.,Cibrik,D。和Song,P.X。(2017)。识别蛋白质特征的套索方法可预测移植后肾移植物存活。Biosciences中的统计数据,9(2),431-452。3。Tang,L.,Chaudhuri,S.,Bagherjeiran,A。和Zhou,L。(2018)。通过分裂和串联技术学习大规模序数排名模型。2018年网站会议的同伴会议记录,1901- 1909年。4。Tang,L.,Zhou,L。和Song,P.X。 (2019)。 融合学习算法以结合部分异质的Cox模型。 计算统计,34(1),395-414。 5。 Tang,L.,Zhou,L。和Song,P.X。 (2020)。 通过置信分布在广义线性模型中的分布式推理。 多元分析杂志,176,104567。 6。 Wang,L.,Zhou,Y.,He,J.,Zhu,B.,Wang,F.,Tang,L.,Kleinsasser,M.,Barker,D. (2020)。 一个流行病学预测模型和软件评估了中国的COVID-19流行病的干预措施。 数据科学杂志,18(3),409-432。 7。 Tang,L.,Zhou,Y.,Wang,L.,Purkayastha,S.,Zhang,L.,He,J.,Wang,F。和Song,P.X。 (2020)。 8。 (2020)。Tang,L.,Zhou,L。和Song,P.X。(2019)。融合学习算法以结合部分异质的Cox模型。计算统计,34(1),395-414。5。Tang,L.,Zhou,L。和Song,P.X。 (2020)。 通过置信分布在广义线性模型中的分布式推理。 多元分析杂志,176,104567。 6。 Wang,L.,Zhou,Y.,He,J.,Zhu,B.,Wang,F.,Tang,L.,Kleinsasser,M.,Barker,D. (2020)。 一个流行病学预测模型和软件评估了中国的COVID-19流行病的干预措施。 数据科学杂志,18(3),409-432。 7。 Tang,L.,Zhou,Y.,Wang,L.,Purkayastha,S.,Zhang,L.,He,J.,Wang,F。和Song,P.X。 (2020)。 8。 (2020)。Tang,L.,Zhou,L。和Song,P.X。(2020)。通过置信分布在广义线性模型中的分布式推理。多元分析杂志,176,104567。6。Wang,L.,Zhou,Y.,He,J.,Zhu,B.,Wang,F.,Tang,L.,Kleinsasser,M.,Barker,D. (2020)。 一个流行病学预测模型和软件评估了中国的COVID-19流行病的干预措施。 数据科学杂志,18(3),409-432。 7。 Tang,L.,Zhou,Y.,Wang,L.,Purkayastha,S.,Zhang,L.,He,J.,Wang,F。和Song,P.X。 (2020)。 8。 (2020)。Wang,L.,Zhou,Y.,He,J.,Zhu,B.,Wang,F.,Tang,L.,Kleinsasser,M.,Barker,D.(2020)。一个流行病学预测模型和软件评估了中国的COVID-19流行病的干预措施。数据科学杂志,18(3),409-432。7。Tang,L.,Zhou,Y.,Wang,L.,Purkayastha,S.,Zhang,L.,He,J.,Wang,F。和Song,P.X。(2020)。8。(2020)。多室传染病模型的综述。国际统计评论,88(2),462–513。[国际统计评论中的第2020-2021条第2020-2021条。]Tang,L。*和Song,P.X。纵向数据分析中的分层后融合学习。Biometrics,77(3),914-928。9。Wang,F.,Zhou,L.,Tang,L。和Song,P.X。(2021)。线性模型中同时推断的收缩膨胀方法(MOCE)。机器学习研究杂志,22(192),1-32。10。tan,X.,Chang,C.H.,Zhou,L。和Tang,L。*(2022)。基于树的模型平均方法