详细内容或原文请订阅后点击阅览
在 Databricks 上扩展 ML 推理:流动还是分区?加盐还是不加盐?
关于最大化集群技术的案例研究Databricks 上的后扩展 ML 推理:流动还是分区?加盐还是不加盐?首先出现在《走向数据科学》上。
来源:走向数据科学简介
四种不同产品的连续变量。机器学习管道是在 Databricks 中构建的,有两个主要组件。
在我们的第一次尝试中,一个 420 核的集群仅处理 18 个分区就花费了近 10 个小时。
目标是调整数据流以最大限度地提高集群利用率并确保可扩展性。推理是在四组 ML 模型上完成的,每个产品一组。但是,我们将重点关注数据的保存方式,因为它将说明我们可以利用多少并行性进行推理。我们不会关注推理本身的内部运作。
如果文件分区太少,集群将花费很长时间扫描大文件,此时,除非重新分区(这意味着增加了网络延迟和数据混洗),否则您可能还会对每个分区中的大量行进行推断。也导致运行时间较长。
然而,企业对于发布对组织产生直接影响的 ML 管道的耐心有限。所以测试是有限的。
在本文中,我们将回顾我们的特征数据概况,然后概述 ML 推理,并展示基于四种数据集处理场景的推理性能的结果和讨论:
数据景观
数据集包含 ML 模型集用于推理的特征。它有大约 5.5 亿行,包含属性 ProductLine 中标识的四种产品:
