摘要在过去的二十年中,在将柱状存储应用于数据仓库和分析方面取得了重大成功。但是,机器学习的快速增长带来了新的挑战。本文介绍了金条,这是一种针对机器学习工作负载量身定制的柱状存储系统。BULLION解决了数据合规性的复杂性,优化了长序列稀疏特征的编码,有效地管理了广泛的投影,引入了存储中的特征,启用了用于多模式训练数据的优质顺序读取,并提供了一个全面的级联编码框架,可将多样化的编码框架融合到多样化的架构中,以组合模构,并通过模态组合。通过与ML应用程序的不断发展的要求保持一致,Bullion促进了柱状存储和处理在现代应用程序场景中的应用,例如广告,推荐系统和属性AI中的应用程序。初步的实验结果和理论分析表明,与现有的柱状储物解决方案相比,面对机器学习工作负载的独特需求,金条提高了实现强大性能的能力。金条大大降低了DELES合规性的I/O成本,通过其优化的编码方案可用于稀疏特征,从而节省了大量存储,并证明了元数据解析速度用于广泛的预测。这些进步使金条能够成为机器学习基础架构未来的重要组成部分,使组织能够有效地管理和处理现代AI应用程序中培训和推断所需的大量数据。
主要关键词