“国家彩票”:构建最佳数据体系结构 div>

Sberfactoring管理总监Mikhail Pecker关于开发公司数据管理平台的发展,这使得为业务发展创造新的机会成为可能。

来源:OSP网站大数据新闻

全俄罗斯国家彩票品牌“National Lottery”正在实施一个项目,以创建现代化数据仓库并引入数据治理实践。其主要目标是将不同的数据组合到一个平台中并确保分析过程的高性能。国家彩票分析和数据管理部门负责人、数据奖提名者叶夫根尼·日洛夫 (Evgenyzhilov) 讲述了该项目的实施情况。

数据奖

- 公司是在什么情况下实施该项目的?数据基础设施是什么样的?

在最初阶段,它是一个未优化的 ClickHouse 存储中的小型数据库和多个数据源。她有四个用户,而 Airflow 中的任务链 (DAG) 数量已经超过 100 个,对象数量超过 130 个。

该基础架构由 VMware 虚拟机管理程序中的三个独立虚拟服务器组成:Airflow、ClickHouse 和 Windows 上的一个。他们运行 ETL 流程来加载和处理来自多个 Postgres 源和 API 的数据,并用 Python 实现。 ClickHouse 服务器提升至 96 个内核、400 GB RAM 和 4.5 TB SDD。

- 主要问题是什么?

缺乏单一存储库使数据访问变得复杂,并且不同的计算方法导致报告中的错误和遗漏。通过转向数据湖屋架构并全面实施数据目录,我们希望使收集、存储和分析信息的过程更加透明和高效。此举旨在提高数据采集的稳定性、存储和积累的质量,并减少数据分析师和企业获取数据的时间。

- 为什么这对国家彩票变得至关重要?

还有关于数据的信任度、数据的相关性和一致性的问题。这些问题需要得到解决,包括借助监控工具,以通知和仪表板的形式讲述质量。