课程目标: 1. 提供有关数据处理的必要知识,并使用统计和机器学习方法对实际问题进行分析 2. 使用编程工具生成报告并以图形形式可视化结果 预期课程成果: 1. 能够获得数据科学的基本知识 2. 将实时数据转换为适合分析的形式 3. 通过统计推断从数据中获取见解 4. 使用机器学习技术开发合适的模型并分析其性能 5. 确定需求并可视化结果 6. 分析模型的性能和结果质量 单元:1 简介 4 小时 数据科学: 数据科学简介 – 数字宇宙 – 数据来源 – 信息共享 – 数据科学项目生命周期: OSEMN 框架 单元:2 数据预处理和概念学习 6 小时 数据预处理简介 – 读取、选择、过滤数据 – 过滤缺失值 – 操作、排序、分组、重新排列、排名数据假设的制定 –概率近似正确学习 - VC 维度 - 假设消除 - 候选消除算法 单元:3 R 基础知识 8 小时 R 基础知识 - 数据类型和对象 - 控制结构 - 数据框 - 特征工程 - 缩放、标签编码和独热编码、缩减 单元:4 使用 R 进行模型拟合 8 小时 回归模型 - 线性和逻辑模型,分类模型 - 决策树、朴素贝叶斯、SVM 和随机森林,聚类模型 - K 均值和层次聚类 单元:5 可视化 6 小时 数据可视化:箱线图、直方图、散点图、热图 - 使用 Tableau - 异常值检测 - 数据平衡 单元:6 R 中的性能评估 4 小时 损失函数和误差:均方误差、均方根误差 - 模型选择和评估标准:准确度、精确度、F1 分数、召回率 - 二元预测分类 - 灵敏度 - 特异性。
主要关键词