如何基于Google Cloud上的经典机器学习工作负载

利用CPU用于实用的,具有成本效益的机器学习帖子如何在Google Cloud上进行基准的经典机器学习工作负载首先出现在数据科学方面。

来源:走向数据科学

机器学习仍然很重要

在GPU至高无上的时代,为什么现实世界的商业案例在很大程度上取决于经典的机器学习和基于CPU的培训?答案是,对现实世界业务应用最重要的数据仍然是表达式,结构化和关系的绝大部分 - 考虑到欺诈检测,保险风险评分,流失预测和操作遥测。经验结果(例如,Grinsztajn等人,为什么基于树的模型仍然在典型的表格数据上超过深度学习?(2022),Neurips 2022在数据集和基准测试中的轨道)表明,对于这些域而言,这些领域的阶段,渐变,梯度,逻辑的增强和逻辑回归的回归在精度和可靠性上都超出了精度和可靠性。它们还提供了解释性,这对于银行和医疗保健等受监管行业至关重要。

表格,结构化和关系 Grinsztajn等人,为什么基于树的模型仍然在典型的表格数据上超过深度学习? (2022),Neurips 2022数据集和基准测试曲目 。, 为什么基于树的模型仍然比典型表格数据的深度学习? Randomforest 梯度提升 逻辑回归

GPU由于数据传输延迟(PCIE开销)和某些基于树的算法的缩放不佳而经常在此处失去优势。因此,基于CPU的培训仍然是云平台上小型中型数据工作负载的最具成本效益的选择。

数据传输延迟 PCIE 缩放不良 基于CPU的培训

在本文中,我将介绍在Google Cloud Platform(GCP)CPU产品上基准测试传统机器学习算法的步骤,包括最近提供的Intel®Xeon®6。 (全面披露:我隶属于英特尔作为高级AI软件解决方案工程师。)

Google云平台(GCP) Intel®Xeon®6

Google Cloud上的机器配置

console.cloud.google.com C4 VM系列
在Google Cloud上设置虚拟机
增加了Google Cloud上虚拟机的引导磁盘尺寸
numpy -c BTS