仓库、壁橱和常识:为什么文件和对象存储不竞争,而是相辅相成

文件还是对象?在企业 IT 中,这个问题通常被视为战略选择,而实际上它归结为常识和数据温度。营销从哪里结束,建筑从哪里开始,以及为什么到 2026 年,在这些车型之间进行选择就像在道路和卡车之间进行选择一样。

来源:OSP网站大数据新闻

两种存储理念

如果除去术语噪音,文件和对象存储之间的区别很平常:第一个是熟悉的文件夹和文件层次结构,第二个是具有丰富元数据的平面对象空间。但在简单性的背后,不仅存在不同的数据处理理念,而且还存在不同的扩展经济学。

文件存储是一棵树:文件夹、子文件夹、路径。这样的导航对于人来说是熟悉的,但是对于系统来说却是一种负担。这是一个带有架子和贴有标签的文件夹的柜子:要查找文件,您需要知道路线。树需要不断更新表、控制移动和访问权限,并且数据的增长使系统变得复杂。当卷大小约为 1 PB 时,文件系统就会“窒息”。

对象存储有不同的范式:没有层次结构,它是一个具有唯一标识符的平坦空间,其中每个对象都是自给自足的。打个比方,一个没有货架的仓库,每个集装箱都有自己的二维码。这消除了扩展问题:EB 级数据是完全可以解决的问题;搜索不是按文件夹而是按属性进行。同时,重要的是要理解:对象存储是专门为存储而设计的,而不是为了编辑而设计的。

第二点是元数据。在文件世界中,它们是苦行僧式的:创建日期、更改、几个标志。这对于文件夹导航来说足够了,但对于分析或处理自动化来说还不够。从这个意义上说,对象存储是一个真正的天堂;它允许您以键值格式将任何元数据添加到对象:项目、部门、状态、保质期、标签。这会将存储库变成类似于具有分类的数据库的东西。

访问协议也不同。文件存储以 SMB/CIFS、NFS 和类似语言进行“通信”;他们可以阻止、打开以进行写入和编辑片段。对象存储通过 RESTful API 使用 HTTP,通常与 Amazon S3 兼容。这里的哲学是不同的:对象被完全放置、完全取出、完全移除。无需使用片段。

冷热:对数据进行排序

输出