我们先从经典信息论中的法诺不等式说起。一个马尔可夫链 X → Y → ˆ X,其中一个随机变量 X,以及从观测 Y 中得到的估计 ˆ X。最简单的理解是,这个马尔可夫链就是一个通信信道,其中 Y 等于噪声加上 X,ˆ X 是基于 Y 做出的估计。因此,最好的情况是 H(X|ˆ X)=0,这意味着我们的估计完全恢复了原始的 X 而没有错误,但是在大多数其他情况下这基本上是不可能的,因此我们感兴趣的是通过信道丢失了多少信息,换句话说,H(X|ˆ X),给出了估计 ˆ X 时 X 还有多少不确定性。因为它不是理想的,所以出错是不可避免的,我们定义 P e=P(ˆ X ̸= X) 和一个新的随机变量 Z [2]。