香农熵,交叉熵和KL散度
本文最后更新于395 天前,其中的信息可能已经过时,如有错误请发送邮件到big_fw@foxmail.com

1 信息量

一个事件的信息量与其概率有关,事件发生概率越小,已知信息就越少,信息量越大,因此考虑先将概率反比,又因为独立事件概率相乘性,将其取对数,则可以将信息量相加。

I(x)=log2(1p(x))=log2(p(x))

举个例子:对于一个均匀的硬币,其正面朝上的概率为p(h)=0.5,反面朝上的概率p(t)=0.5,则我们可以计算出正面朝上事件的信息量和反面朝上事件的信息量:

Ip(h)=log210.5=1Ip(t)=log210.5=1

同理:如果是一个不均匀的硬币,其正面朝上的概率为q(h)=0.2,反面朝上的概率q(t)=0.8,则我们可以计算出正面朝上事件的信息量和反面朝上事件的信息量:

Iq(h)=log210.2=2.32Iq(t)=log210.8=32

可以看出事件发生的概率越小,其信息量越大。

2 香农熵

信息熵(又叫香农熵)反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高。

香农熵表示了一个概率分布的信息量的期望值。

同时一个概率分布越均匀,那么就越随机,信息量越多。反之,一个概率分布越不均匀,那么就越确定,信息量越少。香农熵的可以表示为下面的公式:

H(p)=piIip=pilog2(1pi)=pilog2(pi)

由此可以计算出上述均匀硬币的香农熵:

H(p)=p(h)×log2(1/p(h))+p(t)×log2(1/p(t))=0.5×1+0.5×1=1

不均匀硬币的香农熵为:

H(q)=q(h)×log2(1/q(h))+q(t)×log2(1/q(t))=0.2×2.32+0.8×0.32=0.72

3 交叉熵

交叉熵**H(p,q) 衡量基于真实概率分布下对信息量期望的估计值。表示为:

H(p,q)=piIiq=pilog2(1qi)=pilog2(qi)

我们假设有一枚均匀分布的硬币其正面朝上的概率为p(h)=0.5,反面朝上的概率p(t)=0.5,估计其正面朝上的概率为q(h)=0.2,反面朝上的概率q(t)=0.8,则可以计算出其交叉熵:

H(p,q)=p(h)×log2(1/q(h))+p(t)×log2(1/q(t))=0.5×2.32+0.5×0.32=1.32

如果估计其正面朝上的概率为q(h)=0.4,反面朝上的概率q(t)=0.6,则可以计算出其交叉熵:

H(p,q)=p(h)×log2(1/q(h))+p(t)×log2(1/q(t))=0.5×1.32+0.5×0.74=1.03

可以看出交叉熵一定比香农熵大,且越接近估计的越准。

4 KL散度

KL散度表示交叉熵与熵的差值,即定量计算两个概率分布之间差异性。

D(pq)=H(p,q)H(p)=piIiqpiIip=pilog2(1qi)pilog2(1pi)=pilog2(piqi)

D(pq)>0D(pq)D(qp)

对KL散度中估计的概率分布 qθ 中的 θ 求梯度,即对交叉熵H(p,qθ)求梯度,最小化KL值。

θD(pqθ)=θH(p,qθ)θH(p)=θH(p,qθ)

参考资料

【10分钟】了解香农熵,交叉熵和KL散度_哔哩哔哩_bilibili

来自山东
文末附加内容
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇