详细内容或原文请订阅后点击阅览
Qdrant TurboQuant 解释:TurboQuant 是灵丹妙药吗?
大多数工程师将量化视为收缩向量。 TurboQuant 提出了一个更难的问题:你能在不破坏几何形状的情况下缩小它们吗?Qdrant TurboQuant 帖子解释:TurboQuant 是银弹吗?首先出现在《走向数据科学》上。
来源:走向数据科学作为记忆和回忆之间的权衡。标准是Float32,保真度高,内存成本高。基本的解决方案是标量量化,它将每个值减少到更少的位数(大约 4 倍压缩),并伴有轻微的召回率损失。尽管二进制量化更加努力,通常达到 32 倍压缩,但检索结果可能会由于信息丢失而变得不一致。另一方面,产品量化可能效率更高,但在实际生产中调优和操作比较困难。
2026年5月上旬,Qdrant发布了新的量化方法TurboQuant。他们声称“TurboQuant 可以减少内存使用而不会使检索质量太不稳定”。 TurboQuant 听起来像是特征向量搜索团队想要的那种。
然而,我想知道当我们在不同的数据集大小上测试 TurboQuant 时它是否仍然有效。它是否比常见的量化方法有真正的改进,或者它的优势取决于数据吗?
我进行了实验,将其与更熟悉的量化方法(例如标量和二进制量化)进行比较。目标是了解 TurboQuant 在哪里有用,在哪里有风险,以及是否可以将其视为矢量搜索的严重默认选项。
我相信这将帮助工程师、机器学习从业者和矢量数据库用户了解 TurboQuant 与更常见的量化方法相比的适合之处,特别是在从实验转向生产时。
1. 什么是量化?
向量中的每个 float32 数字使用 4 个字节。因此,1536 维嵌入每个向量需要 6 KB;如果有 100 万个向量,数据库就需要多达 6 GB 的空间用于索引。
原来的 Float32 嵌入现在变成了 4 倍压缩的 uint8 嵌入,这意味着存储大小缩小了 4 倍。
下面的图 1 是在 6D 矢量上此过程的简单演示。
压缩和调用(或记忆和调用)之间的权衡是显而易见的。更多的压缩会导致更低的召回率。
