当前位置:首页 > 芯闻号 > 充电吧
[导读]交叉熵(Cross-Entropy)交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。1.什么是信息量?假设X的信息量为: I(x0)=−log(p(x0))时,熵将等

交叉熵(Cross-Entropy)

交叉熵是一个在ML领域经常会被提到的名词。在这篇文章里将对这个概念进行详细的分析。

1.什么是信息量?

假设X的信息量为:
I(x0)=−log(p(x0))时,熵将等于0,也就是说该事件的发生不会导致任何信息量的增加。举个例子,小明平时不爱学习,考试经常不及格,而小王是个勤奋学习的好学生,经常得满分,所以我们可以做如下假设:
事件A:小明考试及格,对应的概率P(xA)=0.1
事件B:小王考试及格,对应的概率P(xB)=0.999
可以看出,结果非常符合直观:小明及格的可能性很低(十次考试只有一次及格),因此如果某次考试及格了(大家都会说:XXX竟然及格了!),必然会引入较大的信息量,对应的I值也非常的低。

2.什么是熵?

那么什么又是熵呢?还是通过上边的例子来说明,假设小明的考试结果是一个0-1分布XA只有两个取值{0:不及格,1:及格},在某次考试结果公布前,小明的考试结果有多大的不确定度呢?你肯定会说:十有八九不及格!因为根据先验知识,小明及格的概率仅有0.1,90%的可能都是不及格的。怎么来度量这个不确定度?求期望!不错,我们对所有可能结果带来的额外信息量求取均值(期望),其结果不就能够衡量出小明考试成绩的不确定度了吗。
即:
HA(x)=−[p(xA)log(p(xA))+(1−p(xA))log(1−p(xA))]=0.4690
对应小王的熵:
HB(x)=−[p(xB)log(p(xB))+(1−p(xB))log(1−p(xB))]=0.0114
虽然小明考试结果的不确定性较低,毕竟十次有9次都不及格,但是也比不上小王(1000次考试只有一次才可能不及格,结果相当的确定)
我们再假设一个成绩相对普通的学生小东,他及格的概率是P(xC)=0.5,即及格与否的概率是一样的,对应的熵:
HC(x)=−[p(xC)log(p(xC))+(1−p(xC))log(1−p(xC))]=1
其熵为1,他的不确定性比前边两位同学要高很多,在成绩公布之前,很难准确猜测出他的考试结果。
可以看出,熵其实是信息量的期望值,它是一个随机变量的确定性的度量。熵越大,变量的取值越不确定,反之就越确定。

对于一个随机变量X而言,它的所有可能取值的信息量的期望(E[I(x)])就称为熵。
X的熵定义为:
H(X)=Eplog1p(x)=−∑x∈Xp(x)logp(x)
如果p(x)是连续型随机变量的pdf,则熵定义为:
H(X)=−∫x∈Xp(x)logp(x)dx
为了保证有效性,这里约定当p(x)→0时,有p(x)logp(x)→0
当X为0-1分布时,熵与概率p的关系如下图:

可以看出,当两种取值的可能性相等时,不确定度最大(此时没有任何先验知识),这个结论可以推广到多种取值的情况。在图中也可以看出,当p=0或1时,熵为0,即此时X完全确定。
熵的单位随着公式中log运算的底数而变化,当底数为2时,单位为“比特”(bit),底数为e时,单位为“奈特”。

3.什么是相对熵?

相对熵(relative entropy)又称为KL散度(Kullback-Leibler divergence),KL距离,是两个随机分布间距离的度量。记为DKL(p||q)。它度量当真实分布为p时,假设分布q的无效性。
DKL(p||q)=Ep[logp(x)q(x)]=∑x∈Xp(x)logp(x)q(x)
=∑x∈X[p(x)logp(x)−p(x)logq(x)]
=∑x∈Xp(x)logp(x)−∑x∈Xp(x)logq(x)
=−H(p)−∑x∈Xp(x)logq(x)
=−H(p)+Ep[−logq(x)]
=Hp(q)−H(p)
并且为了保证连续性,做如下约定:
0log00=0,0log0q=0,plogp0=∞
显然,当p=q
上式最后的Hp(q)表示在真实分布为p的前提下,使用q分布进行编码相对于使用真实分布p进行编码(即最优编码)所多出来的bit数。

4. 什么是交叉熵?

交叉熵容易跟相对熵搞混,二者联系紧密,但又有所区别。假设有两个分布p,q,则它们在给定样本集上的交叉熵定义如下:
CEH(p,q)=Ep[−logq]=−∑x∈Xp(x)logq(x)=H(p)+DKL(p||q)
可以看出,交叉熵与上一节定义的相对熵仅相差了H(p)(p=q时KL距离为0),因此有的工程文献中将最小化KL距离的方法称为Principle of Minimum Cross-Entropy (MCE)或Minxent方法。
特别的,在logistic regression中,
p:真实样本分布,服从参数为p的0-1分布,即X∼B(1,p)
q:待估计的模型,服从参数为q的0-1分布,即X∼B(1,q)
两者的交叉熵为:
CEH(p,q)
=−∑x∈Xp(x)logq(x)
=−[Pp(x=1)logPq(x=1)+Pp(x=0)logPq(x=0)]
=−[plogq+(1−p)log(1−q)]
=−[yloghθ(x)+(1−y)log(1−hθ(x))]
对所有训练样本取均值得:
−1m∑i=1m[y(i)loghθ(x(i))+(1−y(i))log(1−hθ(x(i)))]
这个结果与通过最大似然估计方法求出来的结果一致。

5.参考链接:

维基百科关于cross-entropy的解释
交叉熵损失函数
UFLDL中关于logistic regression的说明
Kraft’s inequality
Visual Information

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

大象汽车北美公司与加拿大最大的上装厂及经销商ITD工业公司签署加拿大独家经销合作备忘录。 双方将探索在加拿大市场提供组装制造服务的合资企业。 香港2024年5月8日 /美通社/ -- 5月8日,全球领先的...

关键字: 汽车 电动 新能源 氢燃料电池

汽车公司 Automobili Pininfarina 策划了一项独特的 Battista 委托计划,以此向1955 年 Lancia Florida,一辆由 Battista 'Pinin' Farina 设计和喜爱的...

关键字: BAT INA 汽车 TI

全球通信技术公司Tata Communications 于今日推出了 Tata Communications CloudLyte,这是一款全自动边缘计算平台,旨在帮助面向未来的企业在数据驱动的世界中蓬勃发展。

关键字: 边缘计算 5G 物联网

如同造纸术的改良推动了人类文明的传承、蒸汽机的改进催生了工业革命,在人类历史上,创新的工具引领了影响深远的变革。今天,大模型发展如火如荼,但企业在大模型应用落地过程中仍需要解决幻觉、开发难度大、适配迁移难、试错成本高等系...

关键字: AI 数据处理 大模型

近日,特斯拉发布了Optimus最新进展视频,展现了其分拣电池、行走、执行工厂任务的能力,并配文“最近正在努力变得有用!”。

关键字: 特斯拉 机器人 Optimus

2024年5月9日晚,中国大陆晶圆代工龙头厂中芯国际发布2024年第一季度财报,销售收入为17.5亿美元,环比增长4.3%,同比增长19.7%;毛利率为13.7%,均好于指引。值得一提的是,这也是中芯国际的季度营收首次超...

关键字: 中芯国际

据韩联社报道,近日 SK 海力士子公司 SK 海力士系统集成电路拟以3.493亿美元的价格向无锡产业发展集团有限公司转让所持有的 SK 海力士系统集成电路(无锡)有限公司(下文简称无锡晶圆厂) 49.9% 股权。

关键字: SK 海力士 晶圆厂

近日,美国空军在加州爱德华兹空军基地进行了首次正式的AI控制战斗机试飞,美联社等少数媒体代表受邀观摩,美国空军方面明确表示,AI战机将是未来美国空中力量的重要组成部分。

关键字: 美国 AI

从近期媒体的一份爆料来看,苹果近年来其实已经下了不少力气深耕AI领域——在过去六年间从谷歌挖走了数十名人工智能专家,并在苏黎世创建了一个神秘的欧洲实验室。

关键字: 苹果 谷歌 实验室 AI

据外媒最新报道,微软近日披露了一个名为“ Dirty Stream ”的严重安全漏洞,该漏洞可能影响到数十亿下载量的 Android 应用。这种攻击可能使得攻击者完全控制应用,未经授权访问敏感用户数据,或拦截私密登录信息...

关键字: 安卓 漏洞 小米
关闭
关闭