摘要 — 信息瓶颈函数给出了在将 X 压缩为新随机变量 W 且与 X 的剩余相关性有界的情况下,某个随机变量 X 和某个边信息 Y 之间相关性的最佳保存程度的度量。因此,信息瓶颈在机器学习、编码和视频压缩中有着许多自然的应用。计算信息瓶颈的主要目标是找到 W 上的最佳表示。这在原则上可能非常复杂,但幸运的是,已知 W 的基数可以限制为 |W| ≤|X| +1,这使得有限 |X| 的计算成为可能。现在,对于许多实际应用,例如在机器学习中,X 代表一个潜在的非常大的数据空间,而 Y 来自一组相对较小的标签。这就提出了一个问题,在这种情况下是否可以改进已知的基数界限。我们表明,信息瓶颈函数总是可以近似为误差 δ ( ϵ, |Y| ),基数为 |W| ≤ f ( ϵ, |Y| ) ,其中明确给出了近似参数 ϵ > 0 的函数 δ 和 f 以及 Y 的基数。最后,我们将已知的基数界限推广到一些随机变量代表量子信息的情况。
主要关键词