Qdrant TurboQuant 解释：TurboQuant 是灵丹妙药吗？ XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

Qdrant TurboQuant 解释：TurboQuant 是灵丹妙药吗？

2026年5月30日 13:00 33 Comments

大多数工程师将量化视为收缩向量。 TurboQuant 提出了一个更难的问题：你能在不破坏几何形状的情况下缩小它们吗？Qdrant TurboQuant 帖子解释：TurboQuant 是银弹吗？首先出现在《走向数据科学》上。

来源:走向数据科学

作为记忆和回忆之间的权衡。标准是Float32，保真度高，内存成本高。基本的解决方案是标量量化，它将每个值减少到更少的位数（大约 4 倍压缩），并伴有轻微的召回率损失。尽管二进制量化更加努力，通常达到 32 倍压缩，但检索结果可能会由于信息丢失而变得不一致。另一方面，产品量化可能效率更高，但在实际生产中调优和操作比较困难。

2026年5月上旬，Qdrant发布了新的量化方法TurboQuant。他们声称“TurboQuant 可以减少内存使用而不会使检索质量太不稳定”。 TurboQuant 听起来像是特征向量搜索团队想要的那种。

然而，我想知道当我们在不同的数据集大小上测试 TurboQuant 时它是否仍然有效。它是否比常见的量化方法有真正的改进，或者它的优势取决于数据吗？

我进行了实验，将其与更熟悉的量化方法（例如标量和二进制量化）进行比较。目标是了解 TurboQuant 在哪里有用，在哪里有风险，以及是否可以将其视为矢量搜索的严重默认选项。

我相信这将帮助工程师、机器学习从业者和矢量数据库用户了解 TurboQuant 与更常见的量化方法相比的适合之处，特别是在从实验转向生产时。

1. 什么是量化？

向量中的每个 float32 数字使用 4 个字节。因此，1536 维嵌入每个向量需要 6 KB；如果有 100 万个向量，数据库就需要多达 6 GB 的空间用于索引。

原来的 Float32 嵌入现在变成了 4 倍压缩的 uint8 嵌入，这意味着存储大小缩小了 4 倍。

下面的图 1 是在 6D 矢量上此过程的简单演示。

压缩和调用（或记忆和调用）之间的权衡是显而易见的。更多的压缩会导致更低的召回率。

3.1 TurboQuant 管道

基本的不稳定二进制使用下面的生产原来的不同的嵌入质量不一致 Float32 意味着机器学习信息丢失数据库保真度显而易见 TurboQuant 数据集量化搜索的标量矢量数据调用特征向量压缩的内存压缩更多的方法检索向量轻微的工程师真正的矢量