提交日期:2024年1月23日,审查日期:2024年1月26日修订日期:2024年1月27日接受日期:2024年1月29日,抽象糖尿病是一种可以攻击任何人的疾病,这种疾病发生,因为人体中糖含量过多。因此,需要预防糖尿病,以便可以尽早采取预防措施。在这项研究中,将使用随机森林算法,支持向量分类和XGBoost进行分类过程。本研究将使用一个数据集,该数据集由768个总数据组成,其分布非糖尿病数据为500,糖尿病数据的分布为268。对于测试后的分类结果,结果是,使用随机森林获得的分类为79.22%,使用使用支持矢量分类的测试精度获得了76.62%的测试精度,使用XGBoost的测试准确度使用逻辑回归的测试精度为79.22%的测试准确度为80.52%。使用逻辑回归算法时,获得最佳分类值,即精度为79.00%,召回77.00%,F1得分为78.00%。
从自然科学到社会科学,发现数据中隐藏的规律是许多领域的核心挑战。然而,这项任务在历史上依赖于人类的直觉和经验,在许多领域,包括心理学。因此,使用人工智能 (AI) 发现规律有两个显著的优势。首先,它可以发现人类无法发现的规律。其次,它将有助于构建更准确的理论。一种名为 AI-Feynman 的人工智能在一个非常不同的领域发布,表现令人印象深刻。虽然 AI-Feynman 最初是为发现物理学规律而设计的,但它在心理学中也能很好地发挥作用。本研究旨在通过测试 AI-Feynman 是否可以发现双曲折现模型作为折现函数,来检验它是否可以成为跨期选择实验的一种新的数据分析方法。为了实现这些目标,进行了一项跨期选择实验,并将数据输入 AI-Feynman。结果,AI-Feynman 提出了七个折现函数候选。其中一个候选模型是双曲折现模型,目前认为该模型最为准确。三种均方根误差函数均优于双曲折现模型。此外,三种候选模型中有一种比标准双曲折现函数更“双曲”。这些结果表明了两点。一是 AI-Feynman 可以成为跨期选择实验的一种新数据分析方法。二是 AI-Feynman 可以发现人类无法发现的折现函数。
呼吸窘迫综合征(RDS)是儿科常见疾病,晚期早产儿因肺脏发育不全易患RDS。1为探讨晚期早产儿发生RDS的危险因素,本研究采用logistic回归分析方法对相关因素进行筛选和分析。临床上,晚期早产儿往往同时存在多种危险因素,如妊娠期并发症、出生时窒息、产后感染等,这些因素可能单独或联合作用导致RDS的发生。2-5Logistic回归分析可以定量评估这些因素对RDS发生的影响,并计算出各因素相应的比值比和95%可信区间,从而更好地了解危险因素的特点。因此,本研究选取2020年1月至2023年1月在秦皇岛市妇幼保健院出生的1605例早产儿作为研究对象,探讨晚期早产儿发生RDS的危险因素。
,我们建议符号回归是对标准模型以外的物理模型的数值研究的强大工具。在本文中,我们证明了该方法在基准模型上的功效,即受约束的最小超对称标准模型,该模型具有四维参数空间。我们提供了一组分析表达式,这些表达式在理论的参数方面重现了三个低能的观察结果:希格斯质量,对穆恩的异常磁矩的贡献以及冷暗物质依赖密度。为了证明该方法的功能,我们在全局拟合分析中采用了符号表达式来得出参数的后验概率密度,而这些概率密度比使用常规方法更快地获得了两个数量级。
迹回归模型是广为研究的线性回归模型的直接扩展,它允许将矩阵映射到实值输出。这里,我们介绍一个更为通用的模型,即部分迹回归模型,它是一类从矩阵值输入到矩阵值输出的线性映射;该模型包含了迹回归模型,因此也包含了线性回归模型。借用量子信息论的工具,其中部分迹算子已经得到了广泛的研究,我们提出了一个框架,用于利用完全正映射的所谓低秩 Kraus 表示从数据中学习部分迹回归模型。我们通过针对 i)矩阵到矩阵回归和 ii)半正定矩阵补全进行的合成和真实实验展示了该框架的相关性,这两个任务可以表述为部分迹回归问题。
摘要:越来越多的光学卫星任务对陆地地球系统的连续监测为植被和农田特征提供了宝贵的见解。卫星任务通常提供不同级别的数据,例如1级大气顶(TOA)辐射率和2级大气底(BOA)反射率产品。开发TOA辐射数据直接提供了绕过复杂大气校正步骤的优势,在该步骤中,错误可以在其中进行预测并损害随后的检索过程。因此,我们研究的目的是开发能够从成像光谱卫星任务中直接从TOA辐射数据中检索植被特征的模型。为了实现这一目标,我们基于辐射转移模型(RTM)模拟数据构建了混合模型,从而采用了植被范围RTM与大气libradtran RTM结合使用高斯工艺回归(GPR)。重点是植被冠层特征的重新评估,包括叶子面积指数(LAI),冠层叶绿素含量(CCC),冠层水含量(CWC),吸收的光合式活性辐射(FAPAR)的分数以及植被覆盖的分数(FVC)。使用即将到来的哥白尼高光成像任务(Chime)的带设置,评估了两种类型的混合GPR模型:(1)使用TOA辐射数据在1级(L1)培训的一种培训,并且(2)使用BOA反射率数据在2级(L2)训练。基于TOA和BOA的GPR模型均已针对原位数据验证,并具有从现场活动中获得的相应高光谱数据。基于TOA的混合GPR模型揭示了从中度到最佳结果的一系列性能,因此达到R 2 = 0.92(LAI),R 2 = 0.72(CCC)和0.68(CCC)和0.68(CWC),R 2 = 0.94(FAPAR)和R 2 = 0.95(FVC)。为了证明模型的适用性,随后将基于TOA和BOA的GPR模型应用于科学前体任务Prisma和Enmap的图像。所产生的性状图在基于TOA和BOA的模型之间显示出足够的一致性,相对误差在4%至16%之间(R 2在0.68和0.97之间)。总的来说,这些发现阐明了机器学习混合模型的开发和增强的路径,以估算直接在TOA水平下定制的植被特征。
隐私的机器学习是一类密码方法,旨在分析私人和敏感数据的同时保留隐私,例如在大型加密数据上使用同型逻辑回归培训。在本文中,我们提出了一种有效的算法,用于使用同态加密(HE)对大加密数据进行逻辑回归训练,这是使用更快的渐变变体称为Quadratic梯度的最新方法的迷你批量版本。据称,二次梯度可以将曲线信息(Hessian矩阵)集成到梯度中,因此可以有效地加速一阶梯度(下降)算法。当加密的数据集如此之大,以至于必须以迷你批次方式加密时,我们还实现了其方法的全批量版本。我们将迷你批次算法与我们的全批量实施方法进行了比较,这些方法由422,108个带有200粒的样本组成的真实财务数据进行了比较。鉴于HES的效率低下,我们的结果令人鼓舞,并证明了大型加密数据集的Logistic回归培训具有可行性,这标志着我们理解的重要里程碑。
摘要 与许多其他现代编程语言一样,Pharo 将其应用扩展到计算要求高的领域,例如机器学习、大数据、加密货币等。这就需要快速的数值计算库。在这项工作中,我们建议通过外部函数接口 (FFI) 调用高度优化的外部库(例如 LAPACK 或 BLAS)中的例程来加速低级计算。作为概念验证,我们基于 LAPACK 的 DGELSD 例程构建了线性回归的原型实现。使用三个不同大小的基准数据集,我们将我们的算法的执行时间与纯 Pharo 实现和 scikit-learn(一种流行的机器学习 Python 库)进行比较。我们表明 LAPACK&Pharo 比纯 Pharo 快 2103 倍。我们还表明,scikit-learn 比我们的原型快 8-5 倍,具体取决于数据的大小。最后,我们证明纯 Pharo 比纯 Python 中的等效实现快 15 倍。这些发现可以为未来为 Pharo 构建快速数值库并进一步在更高级的库(如 pharo-ai)中使用它们奠定基础。
摘要 与许多其他现代编程语言一样,Pharo 将其应用扩展到计算要求高的领域,例如机器学习、大数据、加密货币等。这就需要快速的数值计算库。在这项工作中,我们建议通过外部函数接口 (FFI) 调用高度优化的外部库(例如 LAPACK 或 BLAS)中的例程来加速低级计算。作为概念验证,我们基于 LAPACK 的 DGELSD 例程构建了线性回归的原型实现。使用三个不同大小的基准数据集,我们将我们的算法的执行时间与纯 Pharo 实现和 scikit-learn(一种流行的机器学习 Python 库)进行比较。我们表明 LAPACK&Pharo 比纯 Pharo 快 2103 倍。我们还表明,scikit-learn 比我们的原型快 8-5 倍,具体取决于数据的大小。最后,我们证明纯 Pharo 比纯 Python 中的等效实现快 15 倍。这些发现可以为未来为 Pharo 构建快速数值库并进一步在更高级的库(如 pharo-ai)中使用它们奠定基础。