详细内容或原文请订阅后点击阅览
10 Python数学和统计分析一线
Python使常见的数学和统计任务超级简单。这些单线显示如何使用更少的代码做更多的事情。
来源:KDnuggetspython的表达语法及其内置模块和外部库,使得可以使用非常简洁的代码执行复杂的数学和统计操作。
在本文中,我们将介绍一些有用的单线进行数学和统计分析。这些单线人显示了如何从数据中提取有意义的信息,同时保持可读性和效率。
🔗链接github上的代码
链接到GitHub上的代码样本数据
在编码我们的单线之前,让我们创建一些示例数据集以使用:
导入numpy作为NP 导入大熊猫作为pd 从收集进口计数器中 进口统计 #示例数据集 数字= [12,45,7,23,56,89,34,67,21,78,43,65,65,32,54,76] 等级= [78、79、82、84、85、86、87、88、89、90、91、91、92、93、94、96] sales_data = [1200,1500,800,2100,1800,950,1600,2200,1400,1750,3400] 温度= [55.2,62.1,58.3,64.7,64.0,61.8,59.4,63.5,57.9,56.6]
请注意:在以下的代码段中,我排除了打印语句。
1。计算平均值,中值和模式
分析数据集时,您通常需要多种中心趋势的度量来了解数据的分布。这个单线计算单个表达式中的所有三个关键统计信息,提供了数据中心特征的全面概述。
stats =(statistics.mean(成绩),statistics.median(等级),statistics.mode(成绩))
此表达式使用Python的统计模块来计算一个元组分配中的算术平均值,中值和最常见的值。
2。使用四分位数范围
识别离群值对于数据质量评估和异常检测是必要的。这个单线实现了标准的IQR方法,以标记大大超出典型范围的值,从而帮助您发现潜在的数据输入错误或真正不寻常的观察。
3。计算两个变量之间的相关性
np.Float64(0.062360807968294615)
.getAttr()
计数器