当前位置:首页 > 芯闻号 > 充电吧
[导读]   今天晚上看了lda算法的原理,深感自己知识的缺乏啊(Dirichlet分布、多项分布、图模型、Gibbs抽样)。这也让我深感惭愧,早就意识到自己数学知识的缺乏,但是一直没有补一下。   好吧,简

   今天晚上看了lda算法的原理,深感自己知识的缺乏啊(Dirichlet分布、多项分布、图模型、Gibbs抽样)。这也让我深感惭愧,早就意识到自己数学知识的缺乏,但是一直没有补一下。

   好吧,简单来总结一下现在对lda的理解(还有很多的地方不理解)。

   1、用途:

   判断两个文档的关联程度使用的方法是查看两个文档中出现相同的单词的个数,就如TF-IDF,这种方法未能够找到隐藏到文本后面的主题关联(或者语义关联),可能两个文档包含的相同的单词不多,但是他们表达的主题却是一样或者相似的。正如:“乔布斯离我们而去了。”和“苹果价格会不会降”一样。

   2、主题模型:

   到底什么是主题模型。一个主题,可以简单的认为是语义相似的词的集合,比如说“爱”和“喜欢”,或者“讨厌”或者“厌恶”一样,所以这时候可以把主题想象成为一个桶,而桶里面放的是出现概率较高的词,并且这些词和主题有着很强的相关性。

   3、生成模型:

   现在假设我们有大量的文档,那么我们怎么能够生成主题呢?这时候要用到生成模型的概念,让我们用概率模型,来写一篇文章。

假如说我们要写一篇文章,那么这篇文章主要是关于什么的呢,也就是说它的主题是什么呢?哦,是关于爱情、亲情和友情的。并且这些主题在文章中都占有一定的比例,或者说主题在文档中具有一定的分布(多项式分布)。那么接下来怎么去表达这些主题呢?嗯,用句子表达。当然再细化一下,就是使用词语来表达,也就是从一个主题的“桶”里面挑选出来词语,而这些词语在主题当中又服从一定的分布(多项式分布)(通常这些词要进行一定的预处理,比如剔除stopword,对于英文来说还要stemming,当然中文似乎不用stemming了)。所以说一篇文章可以这样立体化的表示:

doc
|
----------------------------------------
|                       |...                     |
topic_1            topic_2              topic_m


topic_i
|
----------------------------------------
|                       |...                     |
word_1            word_2              word_n 

 

所以说一篇文章中的每个词可以是通过以一定的概率选择了某个主题(正如选择了爱情、亲情这样的主题一样),然后从这个主题当中又以一定的概率选择词语来进行表达,这样的过程就是一个生成模型。在这样的定义下,每篇文档中词语出现的概率为:



使用矩阵表示就是:



其中C中的每一列表示每个文档中词语出现的概率(或者说成文档中词语的分布),Φ中的每一列表示每个主题中每个单词出现的概率,θ每一列表示文档中每个主题出现的概率。

   这时候给定一系列文档,通过对文档进行分词,然后计算出C矩阵。这时候的任务就是利用C矩阵训练右边的两个矩阵。

   4、具体表述:

   接下来该具体怎么使用生成模型呢,到现在了怎么还没有和Dirichlet相关呢。不要着急,先看看下面的图:



这图刚一看会让人崩溃的……

其中,阴影圆圈表示可观测变量(observed variable);非阴影的圆圈表示潜在变量(latentvariable),箭头表示两个变量之间的依赖性,方框表示重复抽样,重复的次数在右下角。W表示词语,Z表示主题,θ是一个主题向量,α和β分别是语料级别的参数。

从上图可以看出,LDA的三个表示层被三种颜色表示出来:

       1. corpus-level(红色):α和β表示语料级别的参数,也就是每个文档都一样,因此生成过程只采样一次。为什么要有α和β呢?一个主题里面包含的词的分布(就是每个词的可能性),也可以通过狄利克雷分配构建一个高层的分配,即你从狄利克雷分配中以某一个概率选了一个分布,这个分布就是p(w|z),因此,公式中不是p(w|z),而是p(w|z,β),这个β就是指这个狄利克雷分布。这样,公式中α也是类似的,是指上面第一步中 的狄利克雷分布。

       2.document-level(橙色):θ是文档级别的变量,每个文档对应一个θ,也就是每个文档产生各个主题z的概率是不同的,所有生成每个文档采样一次θ。

       3. word-level(绿色):z和w都是单词级别变量,z由θ生成,w由z和β共同生成,一个 单词w对应一个主题z。

       通过上面对LDA生成模型的讨论,可以知道LDA模型主要是从给定的输入语料中学习训练两个控制参数α和β,学习出了这两个控制参数就确定了模型,便可以用来生成文档。其中α和β分别对应以下各个信息:

       α:分布p(θ)需要一个向量参数,即Dirichlet分布的参数,用于生成一个主题θ向量;

        β:各个主题对应的单词概率分布矩阵p(w|z)。

产生文章的过程:

对于一篇文档,我们通过p(θ|α)产生θ,这是主题在此文档中对应的多项分布,通过多项分布抽取一个主题Z,然后我们再从主题Z对应的多项分布中抽取一个单词w。将这个过程重复N次便产生了一篇文章。

用语言表述的话:

 1. 对每一篇文档,从主题分布中抽取一个主题;

2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;

3. 重复上述过程直至遍历文档中的每一个单词。

也可以用下面的方式表示:

Chooseparameter θ ~ p(θ|α); //按照狄利克雷分配,选出一个主题分布

For eachof the N words w_n: //设文档中有N个单词,那么对每个单词做如下操作

   Choose a topic z_n ~ p(z|θ); //按照主体分部,选择一个主题

   Choose a word w_n ~ p(w|z,β); //按照这个主题,选择一个单词



 5、如何计算参数:

      把w当做观察变量,θ和z当做隐藏变量,就可以通过EM算法学习出α和β,求解过程中遇到后 验概率p(θ,z|w)无法直接求解,需要找一个似然函数下界来近似求解,原文使用基于分解(factorization)假设的变分法(varialtional inference)进行计算,用到了EM算法。每次E-step输入α和β,计算似然函数,M-step最大化这个似然函数,算出α和β,不断迭代直到收敛。


6、开源实现:


LDAGibbsSampling


7、缺点:

由于lda采用了词袋的方法,将每一篇文档实为一个词频向量,从而将文本信息转换成为了易于建模的数字信息,但是却没有考虑词与词之间的顺序。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

9月2日消息,不造车的华为或将催生出更大的独角兽公司,随着阿维塔和赛力斯的入局,华为引望愈发显得引人瞩目。

关键字: 阿维塔 塞力斯 华为

加利福尼亚州圣克拉拉县2024年8月30日 /美通社/ -- 数字化转型技术解决方案公司Trianz今天宣布,该公司与Amazon Web Services (AWS)签订了...

关键字: AWS AN BSP 数字化

伦敦2024年8月29日 /美通社/ -- 英国汽车技术公司SODA.Auto推出其旗舰产品SODA V,这是全球首款涵盖汽车工程师从创意到认证的所有需求的工具,可用于创建软件定义汽车。 SODA V工具的开发耗时1.5...

关键字: 汽车 人工智能 智能驱动 BSP

北京2024年8月28日 /美通社/ -- 越来越多用户希望企业业务能7×24不间断运行,同时企业却面临越来越多业务中断的风险,如企业系统复杂性的增加,频繁的功能更新和发布等。如何确保业务连续性,提升韧性,成...

关键字: 亚马逊 解密 控制平面 BSP

8月30日消息,据媒体报道,腾讯和网易近期正在缩减他们对日本游戏市场的投资。

关键字: 腾讯 编码器 CPU

8月28日消息,今天上午,2024中国国际大数据产业博览会开幕式在贵阳举行,华为董事、质量流程IT总裁陶景文发表了演讲。

关键字: 华为 12nm EDA 半导体

8月28日消息,在2024中国国际大数据产业博览会上,华为常务董事、华为云CEO张平安发表演讲称,数字世界的话语权最终是由生态的繁荣决定的。

关键字: 华为 12nm 手机 卫星通信

要点: 有效应对环境变化,经营业绩稳中有升 落实提质增效举措,毛利润率延续升势 战略布局成效显著,战新业务引领增长 以科技创新为引领,提升企业核心竞争力 坚持高质量发展策略,塑强核心竞争优势...

关键字: 通信 BSP 电信运营商 数字经济

北京2024年8月27日 /美通社/ -- 8月21日,由中央广播电视总台与中国电影电视技术学会联合牵头组建的NVI技术创新联盟在BIRTV2024超高清全产业链发展研讨会上宣布正式成立。 活动现场 NVI技术创新联...

关键字: VI 传输协议 音频 BSP

北京2024年8月27日 /美通社/ -- 在8月23日举办的2024年长三角生态绿色一体化发展示范区联合招商会上,软通动力信息技术(集团)股份有限公司(以下简称"软通动力")与长三角投资(上海)有限...

关键字: BSP 信息技术
关闭
关闭