摘要:数据分析是科学和统计方法在原始数据中的系统应用,目的是将其转换为可行的信息,可用于获取知识。特征抽象中的一个当前发展涉及计算方法和大数据分析的整合。从可靠的数据源中获取信息,有效地处理它,并为此创建有关未来的精确预测。这项工作的主要目的是确定通过采用拟议模型来产生最佳精确预测的机器学习技术。MAPREDUCE方法已被用来在许多方面应用监督和无监督的策略。但是,所提出的模型采用Apache Spark框架比较当前方法。本研究重点是阐明数据集的属性,以便使用机器学习技术进行最精确的分析。为了分析数据集,使用了机器学习技术,例如线性回归,决策树,随机森林和梯度增强树算法。基于研究结果,可以推断,与MapReduce范式相比,在机器学习方法上实施火花框架可以提高70%的效率。
主要关键词