CO1 能够理解数据挖掘过程中涉及的步骤(例如预处理、分类、回归、聚类和可视化)并将其应用于医疗数据的分析。 CO2 能够描述不同的预测分析方法及其在医疗领域的应用。 CO3 能够评估来自不同来源的数据以创建有意义的演示文稿。 课程内容 使用 Python 进行数据分析:了解数据 - (a)属性、数据的统计描述、数据可视化、相似性 - 不相似性、(b)预处理 - 缺失值、噪声数据、数据缩减、数据转换 - 规范化、标准化、分箱、聚类。 使用 Python 进行应用数学:数学基础 - 线性代数 - 向量、矩阵、特征值、特征向量、奇异值分解、降维、主成分分析、线性变换。概率与统计:随机变量、概率分布、分布函数和属性、离散和连续、统计推断 - 估计和假设检验。机器学习(第 1 部分):机器学习基础、线性回归和逻辑回归(分类)。(第 2 部分将在下学期的应用机器学习课程中继续)教材 1. Jiawei Han 和 Micheline Kamber 编写的《数据挖掘概念和技术》 2. Rohatgi 和 Saleh 编写的《概率与统计简介》。 3. Christian Albright 和 Wayne Winston 编写的商业分析:数据分析与决策
主要关键词