10个有用的Python单线用于数据工程

仅使用一行Python来处理日常数据工程任务。快速写作,易于阅读,并且非常有用。

来源:KDnuggets
编辑图片| chatgpt

#简介

数据工程涉及处理大型数据集,构建ETL管道和维护数据质量。数据工程师可以使用流数据,监视系统性能,处理模式变化,并确保跨分布式系统的数据一致性。

Python单线可以通过将复杂的操作凝结成单个可读的语句来帮助简化这些任务。本文着重于解决共同数据工程问题的实用单线。

此处介绍的单线介绍,诸如使用不同结构的处理事件数据,分析系统日志的性能问题,使用不同的模式处理API响应以及实施数据质量检查。让我们开始。

🔗链接github上的代码

链接到GitHub上的代码

#样本数据

让我们旋转一些示例数据以运行我们的单线:

#1。将JSON字段提取到DataFrame列

将JSON元数据字段从事件日志转换为单独的数据帧列进行分析。

events_df = pd.dataframe([{** event,** json.loads(event [event ['metadata'])} for everts In everts in everts])。drop('metadata',axis = 1)

此单线使用列表理解,并用字典解开包装,以将每个事件的基本场与已解析的JSON Metadata合并。 drop()删除了原始的元数据列,因为它的内容现在在单独的列中。

drop() 元数据

输出:

这将创建一个具有1000行和8列的数据框,其中JSON字段(例如Device_Type和paskuy_value)成为可以直接查询和汇总的单个列。

device_type 购买_VALUE

#2。按操作类型识别性能异常值

找到与类似操作相比,要花费多长时间的数据库操作。

outliers = db_logs.groupby('操作')。

此组数据库按操作类型进行记录,然后将每个组过滤以超过第95个百分位持续时间。

截断的输出:

Timestamp 端点