详细内容或原文请订阅后点击阅览
多模式数据分析的实用指南
BigQuery的ObjectRef统一了结构化和非结构化数据,从而通过SQL和Python启用了多模式分析。
来源:KDnuggets赞助内容
简介
企业在有组织的表中管理结构化数据的混合,以及越来越多的非结构化数据(例如图像,音频和文档)。传统上,分析这些不同的数据类型是复杂的,因为它们通常需要单独的工具。非结构化媒体通常需要出口到用于处理的专用服务(例如用于图像分析的计算机视觉服务,或者是音频的语音到文本引擎),这会创建数据筒仓并阻碍整体分析视图。
考虑一个虚构的电子商务支持系统:结构化票务详细信息现场直播在大Query表中,而相应的支持呼叫记录或损坏产品的照片位于云对象存储中。没有直接链接,回答了一个诸如“确定特定笔记本电脑模型的所有支持票的上下文问题,呼叫音频表示高客户挫败感,并且照片显示了一个破裂的屏幕“是一个笨拙的多步骤过程。
本文是BigQuery中ObjectRef的实用技术指南,该功能旨在统一此分析。我们将探索如何构建,查询和控制多模式数据集,从而使用熟悉的SQL和Python接口启用全面的见解。
第1部分:ObjectRef-统一多模式数据的关键
ObjectRef结构和功能
为了应对孤立数据的挑战,BigQuery引入了Objectucref,这是一种专业的结构数据类型。 ObjectRef充当对存储在Google Cloud Storage(GCS)中的非结构化数据对象的直接引用。它不包含非结构化数据本身(例如,数据库中的base64编码图像或转录的音频);相反,它指向该数据的位置,从而使BigQuery可以访问并将其纳入查询中进行分析。
ObjectRef struct由几个关键字段组成:
ContentType
大小
多模式表
ref