将 1.27 亿个数据点转化为行业报告

我在从头开始构建应用程序安全报告时学到的有关数据整理、分段和讲故事的知识将 1.27 亿数据点转化为行业报告一文首先出现在《迈向数据科学》上。

来源:走向数据科学

今年,我发布了一份名为“大规模修复”的行业报告,分析了应用程序安全 (AppSec) 团队如何修复代码中的漏洞。数据集:数以万计的存储库、全年的扫描数据以及从初创公司到企业的组织。总共有超过 1.27 亿个数据点,涵盖两种类型的安全扫描(SAST 和 SCA)的个人发现、扫描事件和补救措施。

我是 Semgrep 的高级技术 PMM,拥有计算机科学、数据科学和解决方案工程背景。我喜欢建造东西。这个项目让我将所有这些整合到一个动作中:编写 SQL、构建脚本来管理分析、解析和清理数据、找到数据讲述的故事,以及交付最终的打磨资产。

这篇文章介绍了我一路上学到的五个教训。如果您曾经需要获取大量数据集,找到其中的叙述,并将其转变为技术和非技术受众可以采取行动的东西,其中一些可能会很有用。

1. 从数据开始,而不是故事

任何数据项目的诱惑都是首先决定你的叙述,然后寻找数据来支持它。我却做了相反的事情。

我在纯粹的探索模式中度过了几周的时间。查询 Snowflake、查看分布、跨不同维度运行聚合。没有假设,没有角度。只是想了解数据实际显示的内容。

这很不舒服。利益相关者想知道报告会说什么。我还没有答案。

但事实证明这是整个项目中最重要的阶段。这些数据讲述了一个我无法猜到的故事:表现最好的安全团队和其他人之间的差距并不在于工具。这是关于对补救措施进行系统的后续行动。如果我从一篇论文开始,我永远不会陷入这样的框架。

在探索期间有帮助的一些事情:

2. 成为领域专家

  • 已经涵盖的内容