第二个不等式——替代解决方案。第二个不等式也可以使用拉格朗日乘数来证明。具体而言,如果所有 px := p ( x ) > 0,我们可以计算梯度 (grad H ( X )) px = − log( px ) − 1。结合限制 P xpx = 1,我们得到方程 − log( px ) − 1 + λ = 0。由于 log 是单射函数,因此只有所有 px 相等时才会出现这种情况。然后它们都必须等于 1 / |X|,因此在 px = 1 / |X| 处评估 H ( X ) 会得出第二个不等式。事实上,X 上的均匀分布是熵的唯一最大化器。这可以看出如下:可以很容易地检查,对于某个倍数 x ∈ X,当 px = 0 时,只需在非零 px 上重复上述论证,就不会产生更大的值。