当前位置:网站首页 > 编程语言 > 正文

lda主题模型(LDA主题模型书籍)

从二项分布推广到多项分布 从Beta分布推广到dirichlet分布 共轭分布 注:上式中的加号“+”,并不代表实际的数学公式是相加,事实上,实际计算过程是相乘的。 */49 */49 Beta分布期望 Beta分布的期望推广到Dirichlet分布 */49 狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。 根据贝叶斯法则 P(x|θ)表示以预估θ为参数的x概率分布,可以直接求得。P(θ)是已有原始的θ概率分布。 方案:选取P(x|θ)的共轭先验作为P(θ)的分布,这样,P(x|θ)乘以P(θ)然后归一化结果后其形式和P(θ)的形式一样。 */49 1.unigram model 词袋模型 */49 问题:粗暴地认为词与词之间没有联系。没有解决一词多义和歧义的现象。 文本生成模型:PLSA d 坚强的孩子 依然前行在路上 张开翅膀飞向自由 让雨水埋葬他的迷惘 w p(w| d)= ? p(w| z)p(z | d) … 0.1 0.5 0.4 z p(z|d) p(w|z) z Topic “事物” “情感” “行动” … 观测,已知 未知,需学习 生命 0.3 路 0.2 夜 0.1 天空 .04 孩子 .03 … 孤独 0.3 自由 0.1 迷惘 0.1 坚强 .08 绝望 .05 … 爱 0.2 碎 0.1 哭 0.1 死 .07 飞 .01 plsa作为topic-model ,每篇文档对应一系列topics,每个topic对应一批terms,有如下问题: 1.每篇文档及其在topic上的分布都是模型参数,也就是模型参数随着文档的数目增加而增加,这样容易导致overfitting 2.对于new doc,如何确定其topic 分布 LDA解决这个问题,没必要把每个doc-topic分布作为模型参数,为doc-topic分布增加一个先验概率,限制整体上文档的topic分布,具有先验分布的作用。 doc-topic分布服从多项分布,狄利克雷分布是其共轭先验。 这样参数的个数就变成K +N*K, N为词个数,K为topic个数,与文档个数无关。 PLSA到LDA */49 生成模型:LDA “情感” “事物” “行动” 孤独 0.3 自由 0.1 迷惘 0.1 坚强 .08 绝望 .05 … 生命 0.3 路 0.2 夜 0.1 天空 .04 孩子 .03 … Topic 爱 碎 哭 死 飞 0.2 0.1 0.1 .07 .01 坚强的孩子 依然前行在路上 张开翅膀飞向自由 让雨水埋葬他的迷惘 … 0.1 0.5 0.4 不再迷惘的生命 被燃碎千万次 也依然坚强 … 0.6 0.2 0.2 … … 生成p(z|d)的 先验分布: Dirichlet(α ) 多项式分布 的参数p(z|d) 多项式分布 的参数p(w|z) … 生成p(w|z)的 先验分布: Dirichlet(η) rakecas…@ 2013/12/8 参数的学习 给定一个文档集合,Wm,n是可以观察到的已知变量,α和β是根据经验给定的先验参数,其他的变量zm,n,θ和φ都是未知的隐含变量,需要根据观察到的变量来学习估计的。根据LDA的图模型,可以写出所有变量的联合分布: 联合分布 第一项因子是给定主题采样词的过程 后面的因子计算,nz(t)表示term t被观察到分配topic z的次数, nm(t) 表示topic k分配给文档m中的word的次数。 计算因子 */49 计算因子 */49 反过来,既然文档已经产生,那么如何根据已经产生好的文档反推其主题呢?这个利用看到的文档推断其隐藏的主题(分布)的过程(其实也就是产生文档的逆过程),便是主题建模的目的:自动地发现文档集中的主题(分布)。 换言之,人类根据文档生成模型写成了各类文章,然后丢给了计算机,相当于计算机看到的是一篇篇已经写好的文章。现在计算机需要根据一篇篇文章中看到的一系列词归纳出当篇文章的主题,进而得出各个主题各自不同的出现概率:主题分布。即文档d和单词w是可被观察到的,但主题z却是隐藏的。 主题模型LDA简介 李威 什么是主题? 主题就是一个概念、一个方面。它表现为一系列相关的词语。 比如一个文章如果涉及到“百度”这个主题,那么“中文搜索”、“李彦宏”等词语就会以较高的频率出现,而如果涉及到“IBM”这个主题,那么“笔记本”等就会出现的很频繁。 如果用数学来描述一下的话,主题就是词汇表上词语的条件概率分布 。与主题关系越密切的词语,它的条件概率越大,反之则越小。 通俗来说,一个主题就好像一个“桶”,它装了若干出现概率较高的词语。这些词语和这个主题有很强的相关性,或者说,正是这些词语共同

到此这篇lda主题模型(LDA主题模型书籍)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 接口403错误(接口报错401)2025-03-07 11:54:09
  • 圈一圈英语怎么读(圈一圈的英语是什么)2025-03-07 11:54:09
  • 快捷键删程序(快捷键删程序怎么删)2025-03-07 11:54:09
  • e71409故障码(e740故障代码)2025-03-07 11:54:09
  • 三星手机无法获取位置(三星手机无法获取位置怎么解决)2025-03-07 11:54:09
  • 断开连接是什么意思(断开连接是什么意思呀)2025-03-07 11:54:09
  • 换国内ip的加速器(国内转国外ip加速器)2025-03-07 11:54:09
  • yml文件(yml文件怎么读)2025-03-07 11:54:09
  • c10c700故障码(c102700故障码)2025-03-07 11:54:09
  • 环形队列的实现(环形队列实现pipe)2025-03-07 11:54:09
  • 全屏图片