当前位置: 首页 > news >正文

深入简出:KL散度、交叉熵、熵、信息量简介、交叉熵损失

学习这些的最终目的

1、量化两个概率分布的差异

2、推导交叉熵损失

一、KL散度

KL散度就是用来量化两个概论分布的差异,如何量化?

计算真实概论分布P信息量估计概论分布为Q,但实际概率分布为P信息量的差值

那么设,概率分布为P时的信息量为H(P),估计概论分布为Q,但实际概率分布为q时的信息量为H(P,Q)

那么两个概率分布差异的量化为:D(P,Q) = H(P) - H(P,Q),注意D(P,Q) 不等于 D(Q,P)

Q估计P的信息量可以用交叉熵(H(P,Q))来计算,P本身信息量可以用熵(H(P))来计算

二、交叉熵

交叉熵是用于,使用“估计分布”下,对真实分布的期望信息量估计

如何估计?

设,每个事件,真实发生概率为pi = x,对应的估计事件的信息量为Ii

那么交叉熵H(P,Q) = \sumpi * Ii,就是用每个事件真实的概率 乘上 估计概率分布对应事件的信息量代表估计概率分布q对真实概率分布q的期望信息量估计

三、熵

熵表示一个概率分布下的期望信息量

设,每个事件,真实发生概率为pi = x,对应的事件的信息量为Ii

H(P) = \sumpi * Ii

到此,我们可以发现,如果估计概率分布和真实概率分布一致,那么D(P,Q)应该为0

四、信息量

现在只差如何定义信息量了

在信息论中,某个事件的信息量(self-information)定义为

I(x)=log(\frac{1}{p(x)}),p为事件x发生的概率,即事件发生的概率越低,它带来的信息量越大

下图是I(X)的函数图像,x属于[0,1],I属于[0,+00]

举个例子来说

小明不中彩票,带来的信息量很小,因为这是很正常的一件事

但如果小明中了彩票,就带来了较大的信息量,因为这是小概率事件

五、交叉熵损失

对于模型的预测,以分类为例,模型会给出每个类别的概率,可以认为是概率分布Q,真实分布为P,那么P和Q差异的量化就是D(P,Q),对D(P,Q)求梯度,就得到了交叉熵损失

六、结语

表述可能不准确,大家意会

相关文章:

  • ubuntu学习day3
  • QT 文件和文件夹操作
  • 校平机:精密制造的“材料雕刻家“
  • python进阶: 深入了解调试利器 Pdb
  • Logisim数字逻辑实训——计数器设计与应用
  • Node.js 异步调用淘宝API实战:构建高吞吐商品详情数据采集方案
  • Spring 生命周期回调全解:从 @PostConstruct 到 SmartLifecycle 的深度探索
  • 如何批量在多个 Word 文档末尾添加广告页面
  • 【java 13天进阶Day05】数据结构,List,Set ,TreeSet集合,Collections工具类
  • centos下openjdk报:getVersion(FontConfiguration.java)异常,安装fontconfig无效问题的处理
  • day2-小白学习JAVA---java第一个程序
  • 问题:el-tree点击某节点的复选框由半选状态更改为全选状态以后,点击该节点展开,懒加载出来子节点数据以后,该节点又变为半选状态
  • Android 12系统静态壁纸深度定制指南
  • tailwincss
  • ​​从Shell到域控:内网渗透中定位域控制器的8种核心方法​
  • ceph weight 和 reweight 的区别
  • Python语言基础教程(上)4.0
  • 2、SpringAI接入ChatGPT与微服务整合
  • SAP案例:珠海汉胜科技SAP S/4 HANA智能制造实践与价值实现
  • 2364. 统计坏数对的数目 之 灵活思想、学会变形
  • 观察|中日航线加速扩容,航空公司如何抓住机会?
  • 6万余采购商消博会上“扫货”,全球好物“购物车”满载而归
  • 中国船东协会:强烈要求美方停止基于政治偏见的调查和行动
  • 礼来公布口服降糖药积极结果,或年底前提交用于体重管理上市申请
  • 马上评丨直播员工上班?职场不是“楚门的世界”
  • 工人日报刊文:首席技师当“博导”,激励技能人才更有作为