2021 年量化算法如何悄然超越其 2026 年后续算法

一个尺度参数决定基于旋转的矢量量化的准确性。2021 年量化算法如何悄然超越其 2026 年后继者的帖子首先出现在《走向数据科学》上。

来源:走向数据科学

TurboQuant [3] 是一种在线矢量量化方法,在 ICLR 2026 上引起了公众的广泛关注。对我来说,它看起来非常熟悉:它与 EDEN 严重重叠,EDEN 是一种量化方法,最初在 NeurIPS 2021 [1] 上作为 1 位方法 DRIVE 引入,并在 ICML 2022 [2] 上推广到任意位宽度。由我本人与 Ran Ben-Basat、Yaniv Ben-Itzhak、Gal Mendelson、Michael Mitzenmacher 和 Shay Vargaftik 合着。

TurboQuant 论文提出了两个变体:TurboQuant-mse 和 TurboQuant-prod。在详细的新比较中 [5],我们表明 TurboQuant-mse 是 EDEN 的退化情况,并且 EDEN 变体始终优于其对应版本。

EDEN 如何量化向量

假设您需要将一维向量(梯度更新、嵌入、KV 缓存条目)压缩到每个坐标几位。 EDEN 分为四个步骤:

  • 随机旋转 - 乘以随机正交矩阵。旋转后,坐标均匀分布,并且对于较大的情况,近似高斯分布。
  • 标量量化 - 将每个旋转坐标舍入为在已知旋转坐标分布上训练的 Lloyd-Max 码本中的某个级别(是每个坐标的目标位数)。
  • 比例 - 乘以比例因子。
  • 逆旋转 - 用于恢复原始向量的近似值。
  • 虽然早期的工作(例如,Suresh 等人(2017)[6])使用旋转主要是为了缩小坐标的动态范围(最大和最小坐标值之间的差距),但据我们所知,EDEN [1] 是第一个利用关于随机旋转的更强有力事实的量化方案:旋转后坐标遵循已知的分布,这让我们可以使用与封闭形式比例配对的确定性量化器,该比例根据应用程序,最小化 MSE 或使估计无偏。这两个尺度都是通过分析得出的,并且与之前的方法相比,该构造产生了渐近 MSE 减少。

    为什么最佳规模值得

    参考文献