1.
如何理解这里交叉熵的直观含义?如何推出XE(y,p)≥H(y)?(P81)
答:
(1)直观含义的理解:
比特数:比特是一种度量信息量的单位,它衡量了一个事件带来的不确定性减少的程度。
每个事件占用的比特数越少,说明编码的效率越高。熵(H(x))正是用来衡量在最优编码方案下,平均每个事件需要多少比特数。
事件发生的概率越小,它带来的信息量越大,因为它发生得越少,我们需要更多比特来描述这种“罕见”。
交叉熵则衡量当我们用错误的概率分布编码时,实际会消耗多少比特。
交叉熵衡量了在不使用真实分布(即错误假设了分布p)的情况下,需要额外消耗的平均比特数。
例子:
真实分布y:红球 50%,蓝球 50%,即y=[0.5,0.5]
错误分布p:红球 30%,蓝球 70%,即p=[0.3,0.7]
计算得:
H(y)=1bit
XE(y,p)=1.1255bit
这意味着:如果使用错误的分布p来编码每次的结果,平均每次需要 1.1255 个比特,每次额外浪费了 0.1255 个比特。
(2)如何证明:XE(y,p)≥H(y)?
<1>数学证明:
<2>从信息论角度:
设XE(y,p)-H(y)=KL散度,KL散度是用来衡量用错误分布p来描述真实分布y时,增加的信息量或编码的损失。
如果假设数据遵循分布p,但实际数据是由分布y生成的,我们会浪费多少信息?
当p=y时,使用了最优的编码方法,没有信息损失,此时XE(y,p)-H(y)=KL散度=0;
当p≠y时,使用了一个错误的分布
2.
这段话应该如何理解?这个公式应该如何理解?(P120)
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/haskellbc/74374.html