心脏病是全世界死亡的主要原因,其早期预测对于有效的患者管理和减少医疗支出至关重要。在这种情况下,机器学习(ML)已成为医疗保健领域中的一种变革性工具,证明了辨别复杂数据模式并提供准确的预后评估的深远能力。ML在心脏病学中的应用对风险预测,早期检测和治疗方案的自定义具有重要作用。当前的研究系统地回顾了用于心脏病预测的ML方法的频谱,涵盖了受监督,无监督,加强和转移学习方法。来自Kaggle和UCI机器学习存储库等著名存储库的数据被用来评估各种ML算法的性能,包括关键指标,包括准确性,灵敏度以及接收器操作特征曲线(AUC-ROC)下的面积。有影响力的预测因素,即年龄,性别,胆固醇水平,血压和生活方式因素,是这些预测模型发展的组成部分。特别关注集合方法和深度学习框架的探索,这些框架已显示出超出传统模型的预测准确性。这项研究描述了与心脏病相关的基本危险因素,并强调了预测分析在医疗保健领域的重要性。侧重于异质数据集和分析技术,该评论旨在为公共卫生策略提供信息,并为减轻医疗保健负担做出贡献。阐明的发现突出了ML的希望,尤其是通过合奏和深度学习方法的利用,在心脏病的预测中。这些进步使医疗保健专业人员能够做出更明智的决定,采取预防性干预措施,并减轻对医疗保健系统的总体影响。这项详尽的审查还综合了各种ML算法的功效和实用性,为未来的研究计划提供了宝贵的汇编,并促进了尖端技术在心脏健康管理中的整合。
[1] Abhijnan Chakraborty、Bhargavi Paranjape、Sourya Kakarla 和 Niloy Ganguly。2016 年。杜绝点击诱饵:检测和预防在线新闻媒体中的点击诱饵。在《社交网络分析与挖掘进展》(ASONAM)中,2016 年 IEEE/ACM 国际会议。IEEE,9-16。[2] Stefania Druga。2018 年。Cognimates。http://cognimates.me/home/ [3] 谷歌。[nd]。https://tfhub.dev/google/universal-sentence-encoder/4 [4] Italo José。[nd]。https://towardsdatascience.com/knn-k-nearest-neighbors-1-a4707b24bd1d [5] Kaggle。[nd] https://www.kaggle.com/lakshmi25npathi/sentiment-analysisof-imdb- movie-reviews/data [6] Ken Kahn、Rani Megasari、Erna Piantari 和 Enjun Junaeti。2018 年。发展中国家儿童使用 Snap! 进行 AI 编程的块编程。在 EC-TEL 从业者论文集 2018:第 13 届欧洲技术增强学习会议,英国利兹,2018 年 9 月 3 日至 6 日。http://ceur-ws.org/Vol-2193/paper1.pdf [7] 终身幼儿园。[nd]。https://github.com/LLK/scratch-blocks [8] 儿童机器学习。[nd]。https://machinelearningforkids.co.uk/ [9] 个人机器人小组和 I2 学习。[nd] https://aieducation.mit.edu/documents/i2educatorguide2019.pdf [10] TensorFlow。[nd]。https://github.com/tensorflow/tfjs-models/tree/master/knnclassifier [11] David Touretzky、Christina Gardner-McCune、Fred Martin 和 Deborah Seehorn。2019 年。展望 K-12 的人工智能:每个孩子应该了解哪些人工智能知识?在 AAAI 中。[12] Uclassify。[nd]。https://uclassify.com/ [13] Jessica Raquelle Van Brummelen。2019 年。创建和民主化对话式人工智能的工具。[14] Avinash Navlani。2018 年。https://www.datacamp.com/community/tutorials/k-nearest-neighbor-classification-scikit-learn [15] Julia Bazińska。 2017。https://lamyiowce.github.io/word2viz/
摘要随着世界人口的不断扩大,对农产品的需求不断增长。为了确保粮食安全,精确的农作物生产率预测已成为必不可少的。农作物,木薯(Manihot esculenta crantz),是尼日利亚和非洲其他地区种植的温带作物。这是所有部落和地理区域中大部分人口的主要食物来源。为了制定增加木薯生产的实用计划,有必要理解表型元素,其中包括疾病,影响木薯的产量。利用数据集和环境因素预测农业产量,机器学习(ML)技术为这一问题提供了充满希望的解决方案。本研究评论重点介绍了一项旨在使用机器学习估算作物生产率的研究的技术,数据集和结果。基于ML的农业生产力预测模型涉及的数据收集和预处理步骤。木薯的叶子表型和Kaggle收集的图像数据集对于训练和评估机器学习(ML)算法至关重要,这对于准确预测作物生产率至关重要。研究需要选择合适的ML算法。支持向量机(SVM),随机森林(RF)和梯度提升技术。使用多个指标(包括精度,召回和F1得分)评估这些ML模型的有效性。使用模型的弹性,估计模型的性能并防止拟合,交叉验证技术。与SMV和RF相比,研究结果表明,模型的极端增强梯度的准确性预测为0.56(56%)。用于评估模型精度性能率的标准包括精度,召回和F1得分。为了增加农作物的产量,木薯生产率与表型健康成反比。本研究预测数据集的生产率水平将为56%。关键字:表型,木薯,生产力,机器学习。
目标:肺癌是一种多方面的疾病,受一系列生活方式,环境和遗传因素的影响。由于吸烟和空气污染的速度升高,肺癌的患病率在某些地区正在增加。本研究旨在调查导致肺癌发展和发展的因素,特别着重于评估各种生活方式,环境和遗传变量的预测意义。材料和方法:研究使用了Kaggle公开访问的数据集,其中包括16个特征和3,310个发生。数据包括示范性,行为和与健康相关的特征,包括性别,吸烟,焦虑,精疲力尽和慢性病。使用MLP模型来评估每个变量的预测重要性。该数据集分为70%进行培训,测试30%。使用归一化的物质比较了因素对肺癌风险的相对影响。结果:该研究表明肺癌与吸烟,咳嗽,黄手指和胸部不适之间存在牢固的相关性。此外,疲劳和过敏是重要的指标。然而,基于性别和年龄,肺癌发生的差异没有明显的差异。年龄被确定为MLP模型中的主要预测因子,呼吸急促,酒精摄入量,黄手指和吸烟是随后的预测因子。结论:该研究肯定了吸烟与肺癌之间众所周知的相关性,强调了早期指标的重要性,例如持续的咳嗽和胸部不适。缺乏明显的性别和年龄差异意味着行为和症状变量可能在确定患肺癌的风险中起更为重要的作用。结果认可包含肺癌筛查计划,这些计划还考虑了其他变量,例如环境暴露和遗传倾向,除了吸烟等常规危险因素外。
a b s t r a c t全球死亡率是心脏病,而早期鉴定对于限制疾病的发展至关重要。早期检测心血管疾病的方法有助于确定高风险人士应该发生的进展,从而降低了风险。主要目标是通过在心脏情况下识别异常来挽救生命,这将通过识别和分析从心脏信息中产生的原始数据来执行。机器学习可以提供有效的方法来做出决策和创建准确的预测。机器学习技术已在医疗业务中广泛使用。在拟议的研究中提供了一种独特的机器学习技术,以预测心脏病。计划的研究利用了Kaggle的开源心脏病数据集。用于机器学习预测的混合算法是许多以前旨在提高效率并产生改善结果的方法的逻辑混合物。提出的工作引入了一种混合方法,该方法采用分类概念进行预测分析。我们使用实际患者数据来构建一种预测心脏病的混合技术。KNN和SVM分类技术。jupyter笔记本用于实现此混合方法。一种混合技术在心脏病的预测分析中优于其他算法。1。简介从一系列原始数据集收集可用信息和模式的实践通常称为数据挖掘。它包括使用一种或多种技术分析大量数据和发现趋势或模式。它在各种情况下都有用,包括分析,研究和医疗保健。因为数据挖掘是一种调查方法,而且医疗保健的许多出色的早期预测系统已经从医疗数据集中发展,这可以检测大量数据的趋势(J. H. Joloudari等,2019)。提高
摘要研究研究了三种分类算法,即使用来自Kaggle的数据集对糖尿病的分类进行分类,以分类糖尿病。k-nn使用欧几里得距离公式依靠测试和训练数据之间的距离计算。K的选择,代表最近的邻居,显着影响K-NN的有效性。天真的贝叶斯是一种概率方法,可以根据过去事件预测类概率,并采用高斯分布方法进行连续数据。决策树,以易于实现的规则形成预测模型。数据收集涉及获取具有八个属性的糖尿病的糖尿病数据集。数据预处理包括清洁和归一化,以最大程度地减少不一致和数据不完整的数据。使用RapidMiner工具应用了分类算法,并比较结果的准确性。天真的贝叶斯产生77.34%的精度,K-NN的性能取决于所选的K值,而决策树生成了分类规则。该研究提供了对糖尿病分类每种算法的优势和缺点的见解。关键字:分类算法,决策树,糖尿病,k-nearest邻居,幼稚的贝叶斯1。引言技术的发展和持续的时间发展对人类生活方式产生了重大影响,人类的生活方式正在迅速从传统变为现代。这些改变还带来了疾病出现模式的改变,尤其是与个人生活方式相关的疾病[1]。一种不健康的生活方式有助于肥胖,高血压,冠心病和糖尿病等疾病的发展。糖尿病,通常称为糖尿病,是一种长期代谢疾病,其血糖水平高于正常水平[2]。高糖水平是由于人体无法将食物加工成能量而引起的[1]。
2 IEEE成员|麦克尼州立大学,德克萨斯州,美国kumarvuppala.shiva@gmail.com摘要ETL(提取,转换和负载)过程是关键的数据处理组件。 传统的ETL过程缺乏所需的功能和敏捷性,并且缺乏应对数据生态系统的动态和不断发展的性质。 传统的ETL系统对数据管理过程提出了无数的挑战,例如处理高容量,高速数据,模式映射和保留数据质量的效率低下。 当前研究的目的是通过强调ML在改善数据转换和异常检测中的作用来实施机器学习(ML),以探索在ETL管道中整合ML的方法,并通过实用和理论镜头分析ML在ETL管道中的影响。 从Kaggle下载了由284,807行和31列组成的信用卡欺诈数据集。 该数据集最重要的问题是巨大的类失衡。 使用一种现代方法称为合成少数群体过采样技术(SMOTE)。 隔离森林(如果)用于检测数据集中的异常。 调查结果表明,在ETL管道中实施ML可以解决特征量表差异的问题,从而提高了模型的平衡和准确性。 该项目突出了现代机器学习驱动的ETL转换和异常检测过程的好处,而不是传统工作流程。 索引术语ETL管道,机器学习,数据转换,异常检测,SMOTE和隔离林。 I.2 IEEE成员|麦克尼州立大学,德克萨斯州,美国kumarvuppala.shiva@gmail.com摘要ETL(提取,转换和负载)过程是关键的数据处理组件。传统的ETL过程缺乏所需的功能和敏捷性,并且缺乏应对数据生态系统的动态和不断发展的性质。传统的ETL系统对数据管理过程提出了无数的挑战,例如处理高容量,高速数据,模式映射和保留数据质量的效率低下。当前研究的目的是通过强调ML在改善数据转换和异常检测中的作用来实施机器学习(ML),以探索在ETL管道中整合ML的方法,并通过实用和理论镜头分析ML在ETL管道中的影响。从Kaggle下载了由284,807行和31列组成的信用卡欺诈数据集。该数据集最重要的问题是巨大的类失衡。使用一种现代方法称为合成少数群体过采样技术(SMOTE)。隔离森林(如果)用于检测数据集中的异常。调查结果表明,在ETL管道中实施ML可以解决特征量表差异的问题,从而提高了模型的平衡和准确性。该项目突出了现代机器学习驱动的ETL转换和异常检测过程的好处,而不是传统工作流程。索引术语ETL管道,机器学习,数据转换,异常检测,SMOTE和隔离林。I.简介A.背景ETL(提取,转换和负载)过程是关键的数据处理组件。它与从多个数据源中提取数据,将其转换为一致且可用的格式,并将其加载到适当的目标系统中[1]。通过将数据从多个数据源合并为适当的格式以进行分析,ETL的有效实施ETL的有效实施增强了组织提高数据的相关性和完整性的能力。etl可以使最初存在于筒仓中并分散成各种系统和格式的数据的合并,清洁和转换,使其不仅可以访问,而且对决策也有用。ETL过程在决策和数据管理过程中的贡献取决于执行三个步骤的有效性。第一步,提取,与组织内部或外部的多个来源的数据相关[2]。虽然大多数数据都是从操作应用程序获得的,但包含来自外部来源的数据增强了
摘要:在本研究中,我们提出了一种用于检测和分类脑肿瘤的新型增强型深度学习方法,即降低复杂度空间融合 CNN (RCSF-CNN) 方法。该方法集成了复杂度特征提取,从而提高了脑肿瘤图片特征提取的质量。为了捕获关键的检测属性,提取了图像变量,例如平均值、标准差、熵、方差、平滑度、能量、对比度和相关性。然后,RCSF-CNN 使用这些属性来检测和分类脑癌。当与离散正交斯托克韦尔变换 (DOST) 配对作为中间阶段时,所提出的方法说明了增强型深度学习方法在脑癌识别中的有效性和优越性。研究是通过 Kaggle 使用 BRATS 数据集进行的,网络在 32 个样本上进行训练,并评估了 5 个样本图片的特征。RCSF-CNN 以其高效的架构脱颖而出,其中包括空间融合以及关键的规范化步骤。类激活映射 (CAM) 的加入提高了透明度和可解释性,突出了模型的创新性。MATLAB 仿真工具用于实现,并在自由源脑肿瘤图像分割基准 (BRATS) 数据集上进行了实验研究。脑肿瘤识别的结果显示熵值为 0.008、能量值为 0.8155、对比度值为 0.354。这些熵、对比度和能量值对于脑肿瘤的检测至关重要。此外,在准确度、特异性和灵敏度方面,新技术在脑肿瘤检测中胜过早期的方法,例如传统 CNN、具有修改后的局部二元模式的深度学习和 ML 算法(例如 SVM)。实现的准确度为 98.99%,表明总正确分类水平很高。99.76% 的特异性说明了该方法能够正确识别非肿瘤区域,而 98.43% 的灵敏度则证明了其能够正确检测癌症位置。
使用卷积神经网络对阿尔茨海默病进行诊断和分类 1 算法 2 3 4 Mosleh Hmoud Al-Adhaileh 5 沙特阿拉伯费萨尔国王大学电子学习和远程教育院长,邮政信箱 4000 Al-Ahsa,6 沙特阿拉伯 7 * 通讯:madaileh@kfu.edu.sa 8 9 10 摘要 11 12 阿尔茨海默病 (AD) 是一种高风险和萎缩性神经疾病,它会缓慢而逐渐地破坏脑细胞(即神经元)。作为最常见的智力低下类型,AD 影响了 60-65% 的智力低下患者 14 ,对中老年人的健康构成重大威胁。为了在早期对 15 AD 进行分类,已经开发了分类系统和计算机辅助诊断技术 16 。以前,机器学习方法通过从神经图像中提取特征来开发诊断系统。目前,深度学习方法已用于许多实时医学成像应用。在本研究中,两种深度神经网络技术 AlexNet 和 Restnet50 被用于 AD 的分类和识别。本研究中用于评估和测试所提模型的数据包括从 Kaggle 网站收集的脑磁共振成像 (MRI) 图像。卷积神经网络 (CNN) 算法被应用于有效地对 AD 进行分类。使用 AlexNet 和 Restnet50 传输学习模型对 CNN 进行预训练。该实验的结果表明,所提出的方法在检测精度方面优于现有系统。AlexNet 模型根据脑 MRI 数据集的五个评估指标 (准确度、F1 分数、精确度、灵敏度和特异性) 取得了出色的性能。 AlexNet 的准确率为 94.53%,特异性为 98.21%,F1 得分为 27 94.12%,灵敏度为 100%,优于 Restnet50。所提出的方法有助于改进医学研究中 AD 的 CAD 28 方法。29 30 31 关键词:计算机辅助、卷积神经网络、人工智能、阿尔茨海默病。32 33 34 1. 简介 35
Gabor 滤波器、GLCM 和 DWT 在脑肿瘤分类中的表现评估 Fausat Fadeke Agboola 1;Wasiu Oladimeji Ismaila 2;Oluyinka Iyabo Omotosho 2;Adeleye Samuel Falohun 3;和 Folasade Muibat Ismaila 4 1 尼日利亚阿达马瓦州约拉莫迪博阿达玛大学物理科学学院计算机科学系。 2 尼日利亚奥约州奥格博莫索拉多克阿金托拉理工大学计算机与信息学学院计算机科学系。 3 尼日利亚奥约州奥格博莫索拉多克阿金托拉理工大学工程与技术学院计算机工程系。 4 尼日利亚奥顺州理工学院计算机科学系。摘要 大脑对身体功能至关重要,如果不加以治疗,肿瘤可能会侵袭大脑,导致死亡、不受控制的生长和转移。因此,自动分类脑肿瘤类型对于加快治疗、制定更好的计划和提高患者生存率至关重要,因为人工诊断脑肿瘤类型在很大程度上依赖于放射科医生的专业知识和敏感性。因此,本文使用 Kaggle 数据库中的四类脑 MRI 肿瘤,评估了 Gabor 滤波器、灰度共生矩阵 (GLCM) 和离散小波变换 (DWT) 在识别正常和异常脑肿瘤方面的性能。性能分析侧重于二元分类,以确定每种特征提取方法的功效。研究发现,Gabor 特征的假阳性率 (FPR) 为 7.61%,假阴性率 (FNR) 为 8.57%,灵敏度为 91.43%,精确度为 81.36%,准确度为 92.13%,时间为 985.34 秒。 GLCM 特征的 FPR 为 9.69%,FNR 为 9.52%,灵敏度为 90.48%,精度为 77.24%,准确率为 90.36%,时间为 364.74 秒。DWT 特征的 FPR 为 11.42%,FNR 为 11.43%,灵敏度为 88.57%,精度为 73.81%,准确率为 88.58%,时间为 275.53 秒。GLCM 产生了最有效的特征提取器,它可以作为一种有用的技术,并作为放射科医生诊断脑肿瘤的第二读取器,以降低死亡率。关键词:Gabor 滤波器、GLCM、DWT、MRI 图像、脑肿瘤、分类。引言脑肿瘤是一种起源于脑内的疾病,当不规则细胞不受控制和限制地生长时,就会无视正常的细胞生长规律。