8种扩展数据科学工作负载的方法

从分机内的机器学习到Terabyte大小的数据范围,学习如何停止与您的工具进行战斗并专注于解决问题。

来源:KDnuggets

赞助内容

您花了多少时间来打击工具而不是解决问题?每个数据科学家都去过那里:删除数据集,因为它不会适合内存或黑客入侵,让企业用户与机器学习模型进行交互。

理想的环境避免了障碍,因此您可以专注于分析。本文涵盖了BigQuery中的八种实用方法,旨在做到这一点,从使用AI驱动的代理到直接从电子表格提供ML模型。

1。电子表格中的机器学习

BQML培训和预测Google Sheet

许多数据对话在电子表格中开始和结束。它们很熟悉,易于使用,非常适合协作。但是,当您的数据太大而对于电子表格来说太大,或者您想在不编写一堆代码的情况下运行预测时会发生什么?连接的表可以通过让您分析Google表接口的数十亿个BigQuery数据来帮助您。所有计算,图表和枢轴表都由幕后大Query提供动力。

连接的床单

再进一步,您还可以访问使用BigQuery Machine Learne(BQML)构建的模型。想象一下,您有一个预测住房价格的BQML模型。使用连接的床单,企业用户可以打开表,输入新属性的数据(平方英尺,卧室数量,位置),公式可以致电BQML型号以返回价格估算。不需要python或API争吵 - 只是一个称为模型的床单公式。这是将机器学习暴露于非技术团队的强大方法。

BigQuery机器学习(BQML)

2。无费用BigQuery Sandbox和Colab笔记本

开始使用企业数据仓库通常涉及摩擦,例如设置帐单帐户。 BigQuery沙箱消除了障碍,可让您每月最多查询1保持数据。无需信用卡。这是一种开始学习和实验大规模分析的绝妙方式。

BigQuery Sandbox 地理