当前位置:网站首页 > Haskell函数式编程 > 正文

sigmod激活函数的导数(sigmoid激活函数的倒数是())



1.

如何理解这里交叉熵的直观含义?如何推出XE(y,p)≥H(y)?(P81)

答:

(1)直观含义的理解:

比特数:比特是一种度量信息量的单位,它衡量了一个事件带来的不确定性减少的程度

每个事件占用的比特数越少,说明编码的效率越高。熵(H(x))正是用来衡量在最优编码方案下,平均每个事件需要多少比特数。

事件发生的概率越小,它带来的信息量越大,因为它发生得越少,我们需要更多比特来描述这种“罕见”。

交叉熵则衡量当我们用错误的概率分布编码时,实际会消耗多少比特。

交叉熵衡量了在不使用真实分布(即错误假设了分布p)的情况下,需要额外消耗的平均比特数

例子:

真实分布y:红球 50%,蓝球 50%,即y=[0.5,0.5]

错误分布p:红球 30%,蓝球 70%,即p=[0.3,0.7]

计算得:

H(y)=1bit

XE(y,p)=1.1255bit

这意味着:如果使用错误的分布p来编码每次的结果,平均每次需要 1.1255 个比特,每次额外浪费了 0.1255 个比特

(2)如何证明:XE(y,p)≥H(y)?

<1>数学证明:

<2>从信息论角度:

设XE(y,p)-H(y)=KL散度,KL散度是用来衡量用错误分布p来描述真实分布y时,增加的信息量或编码的损失。

如果假设数据遵循分布p,但实际数据是由分布y生成的,我们会浪费多少信息

当p=y时,使用了最优的编码方法,没有信息损失,此时XE(y,p)-H(y)=KL散度=0;

当p≠y时,使用了一个错误的分布 p p p,会导致编码效率变差,因此会浪费额外的信息或比特,KL散度大于 0。


2.

这段话应该如何理解?这个公式应该如何理解?(P120)

到此这篇sigmod激活函数的导数(sigmoid激活函数的倒数是())的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 公文格式一级牢记!最权威的党政机关公文格式国家标准(含式样)二级牢记!最权威的党政机关公文格式国家标准(含式样)三级牢记!最权威的党政机关公文格式国家标准(含式样)格式(公文格式一级牢记!最权威的党政机关公文格式国家标准(含式样)二级牢记!最权威的党政机关公文格式国家标准(含式样)三级牢记!最权威的党政机关公文格式国家标准(含式样)格式模版)2025-01-25 08:45:06
  • rms计算公式(rm的计算公式)2025-01-25 08:45:06
  • pos机支付方式有哪些(pos机的支付流程)2025-01-25 08:45:06
  • esp32udp广播模式(esp32 udp广播)2025-01-25 08:45:06
  • pivot_table函数(pivot_table函数 行序不对)2025-01-25 08:45:06
  • raise三单(raise三单形式)2025-01-25 08:45:06
  • ip地址计算公式(ip地址计算公式简单)2025-01-25 08:45:06
  • max函数的功能和使用方法(max 函数的功能是什么?怎么用?)2025-01-25 08:45:06
  • pcap文件格式解析库(pcapng文件格式)2025-01-25 08:45:06
  • 快程序卸载(软件卸载快捷方式)2025-01-25 08:45:06
  • 全屏图片