在 Databricks 上扩展 ML 推理：流动还是分区？加盐还是不加盐？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

在 Databricks 上扩展 ML 推理：流动还是分区？加盐还是不加盐？

2026年2月28日 13:00 33 Comments

关于最大化集群技术的案例研究Databricks 上的后扩展 ML 推理：流动还是分区？加盐还是不加盐？首先出现在《走向数据科学》上。

来源:走向数据科学

四种不同产品的连续变量。机器学习管道是在 Databricks 中构建的，有两个主要组件。

使用无服务器计算在 SQL 中进行功能准备。

使用作业集群对数百个模型的集合进行推理以控制计算能力。

在我们的第一次尝试中，一个 420 核的集群仅处理 18 个分区就花费了近 10 个小时。

目标是调整数据流以最大限度地提高集群利用率并确保可扩展性。推理是在四组 ML 模型上完成的，每个产品一组。但是，我们将重点关注数据的保存方式，因为它将说明我们可以利用多少并行性进行推理。我们不会关注推理本身的内部运作。

如果文件分区太少，集群将花费很长时间扫描大文件，此时，除非重新分区（这意味着增加了网络延迟和数据混洗），否则您可能还会对每个分区中的大量行进行推断。也导致运行时间较长。

然而，企业对于发布对组织产生直接影响的 ML 管道的耐心有限。所以测试是有限的。

在本文中，我们将回顾我们的特征数据概况，然后概述 ML 推理，并展示基于四种数据集处理场景的推理性能的结果和讨论：

分区表，无盐，分区中无行限制（无盐和分区）

分区表，加盐，行数限制为 1M（加盐和分区）

Liquid 集群表，无盐，分区中无行限制（无盐和液体）

Liquid-clustered table，salted，1M行限制（salty和liquid）

数据集包含 ML 模型集用于推理的特征。它有大约 5.5 亿行，包含属性 ProductLine 中标识的四种产品：

产品 A：~1045 万 (1.9%)

产品 B：~440 万 (0.8%)

产品 C：~100M (17.6%)

产品 D：~354M (79.7%)

并行性组织分区运行时间服务器无盐四种本身的使用完成的利用率提高可扩展性意味着集群机器学习计算能力数据数据流关注数据集推理控制计算时间扫描有限的特征数产品限制模型的 ML 分区表进行