详细内容或原文请订阅后点击阅览
绝对初学者的 NumPy:基于项目的数据分析方法
从头开始构建高性能传感器数据管道,释放 Python 科学计算核心的真正速度《面向绝对初学者的 NumPy:基于项目的数据分析方法》一文首先出现在《走向数据科学》上。
来源:走向数据科学运行一系列我构建迷你项目的系列。我建立了一个个人习惯和天气分析项目。但我还没有真正有机会探索 NumPy 的全部威力和功能。我想尝试理解为什么 NumPy 在数据分析中如此有用。为了结束这个系列,我将实时展示这一点。
个人习惯 天气分析我将使用虚构的客户或公司来使事情变得互动。在本例中,我们的客户将是 EnviroTech Dynamics,一家工业传感器网络的全球运营商。
环境科技动态目前,EnviroTech 依靠过时的、基于循环的 Python 脚本每天处理超过 100 万个传感器读数。这个过程极其缓慢,延迟了关键的维护决策并影响了运营效率。他们需要现代化的高性能解决方案。
每天 100 万个传感器读数我的任务是创建一个基于 NumPy 的概念验证,以演示如何增强他们的数据管道。
增强数据管道数据集:模拟传感器读数
为了证明这个概念,我将使用使用 NumPy 的随机模块生成的大型模拟数据集,其中包含具有以下键数组的条目:
- 温度 — 每个数据点代表机器或系统组件的运行温度。这些读数可以快速帮助我们检测机器何时开始过热——可能出现故障、效率低下或安全风险的迹象。压力——显示系统内部压力大小的数据,以及压力是否在安全范围内。状态代码——代表每台机器或系统在给定时刻的运行状况或状态。 0(正常)、1(警告)、2(严重)、3(故障/丢失)。
