Loading...
机构名称:
¥ 1.0

解答:第一个不等式。由于对于所有 x ,p ( x ) ≤ 1,因此有 log( x ) ≤ 0,这意味着当 p ( x ) ≥ 0 时,0 ≤ H ( X )。如果存在 x ∈ X 且 p ( x ) = 1,则有等式,因为意味着 H ( X ) = 0。相反的方向是由于 H ( X ) 是凹的,概率分布集是凸的,因此它在极值点处取最小值,对于一个 x ∈ X ,p ( x ) = 1。第二个不等式。第二个不等式可以使用拉格朗日乘数来证明。具体来说,如果所有 px := p ( x ) > 0,我们可以计算梯度 (grad H ( X )) px = − log( px ) − 1。结合限制 P

物理学 • 柏林自由大学

物理学 • 柏林自由大学PDF文件第1页

物理学 • 柏林自由大学PDF文件第2页

物理学 • 柏林自由大学PDF文件第3页

物理学 • 柏林自由大学PDF文件第4页

物理学 • 柏林自由大学PDF文件第5页