本文最后更新于395 天前,其中的信息可能已经过时,如有错误请发送邮件到big_fw@foxmail.com
1 信息量
一个事件的信息量与其概率有关,事件发生概率越小,已知信息就越少,信息量越大,因此考虑先将概率反比,又因为独立事件概率相乘性,将其取对数,则可以将信息量相加。
举个例子:对于一个均匀的硬币,其正面朝上的概率为,反面朝上的概率,则我们可以计算出正面朝上事件的信息量和反面朝上事件的信息量:
同理:如果是一个不均匀的硬币,其正面朝上的概率为,反面朝上的概率,则我们可以计算出正面朝上事件的信息量和反面朝上事件的信息量:
可以看出事件发生的概率越小,其信息量越大。
2 香农熵
信息熵(又叫香农熵)反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高。
香农熵表示了一个概率分布的信息量的期望值。
同时一个概率分布越均匀,那么就越随机,信息量越多。反之,一个概率分布越不均匀,那么就越确定,信息量越少。香农熵的可以表示为下面的公式:
由此可以计算出上述均匀硬币的香农熵:
不均匀硬币的香农熵为:
3 交叉熵
交叉熵**H(p,q) 衡量基于真实概率分布下对信息量期望的估计值。表示为:
我们假设有一枚均匀分布的硬币其正面朝上的概率为,反面朝上的概率,估计其正面朝上的概率为,反面朝上的概率,则可以计算出其交叉熵:
如果估计其正面朝上的概率为,反面朝上的概率,则可以计算出其交叉熵:
可以看出交叉熵一定比香农熵大,且越接近估计的越准。
4 KL散度
KL散度表示交叉熵与熵的差值,即定量计算两个概率分布之间差异性。
且。
对KL散度中估计的概率分布 中的 求梯度,即对交叉熵求梯度,最小化KL值。
参考资料
【10分钟】了解香农熵,交叉熵和KL散度_哔哩哔哩_bilibili