详细内容或原文请订阅后点击阅览
从“数据缓慢”到数据流:Microsoft Fabric 中的第二代性能革命
数据流(正确吗?)被视为将数据引入 Power BI/Microsoft Fabric 的“最慢且性能最低的选项”。然而,事情正在迅速变化,最新的数据流增强功能改变了我们玩游戏的方式从“数据缓慢”到数据流:Microsoft Fabric 中的第二代性能革命首先出现在走向数据科学上。
来源:走向数据科学最近在维也纳举行的 FabCon Europe 发布的公告中,可能没有引起人们注意的是有关 Dataflows Gen2 性能增强和成本优化的公告。
在我们深入解释这些增强功能如何影响您当前的数据流设置之前,让我们先退后一步,简要概述一下数据流。对于刚接触 Microsoft Fabric 的人来说,Dataflow Gen2 是用于提取、转换和加载数据 (ETL) 的无代码/低代码 Fabric 项目。
Dataflow Gen2 提供了众多优势:
然而,简单通常是有代价的。就数据流而言,与代码优先解决方案(例如 Fabric 笔记本和/或 T-SQL 脚本)相比,CU 消耗的成本明显更高。这已经在我的 MVP 同事 Gilbert Quevauvilliers (Fourmoo):Comparing Dataflow Gen2 vs Notebook on Costs and usability 和 Stepan Resl:Copy Activity, Dataflows Gen2, and Notebooks vs. SharePoint Lists 撰写的两篇精彩博客文章中得到了很好的解释和研究,所以我不会浪费时间讨论过去的事情。相反,让我们关注现在(和未来)为数据流带来的东西!
定价模型的变化
让我们简单地检查一下上图中显示的内容。以前,Dataflow Gen2 运行的每一秒按 16 CU 计费(CU 代表容量单位,代表一组捆绑的资源 — CPU、内存和 I/O — 协同使用以执行特定操作)。根据 Fabric 容量大小,您可以获得一定数量的容量单元 — F2 提供 2 个 CU,F4 提供 4 个 CU,依此类推。
