当前位置:网站首页 > 编程语言 > 正文

lda主题模型分析结果(lda主题模型困惑度)



基于潜在语义分析的文本挖掘方法主要包括:
LSA(Latent Semantic Analysis)
PLSA(Probabilistic Latent Semantic Analysis)
LDA(Latent Dirichlet Allocation)

这里为什么是潜在语义呢?
顾名思义是通过分析文章(documents )来挖掘文章的潜在意思或语义(concepts )。如果每个单词都仅以着一个语义,同时每个语义仅仅由一个单词来表示,那么简单地将进行语义和单词间的映射。不幸的是,不同的单词可以表示同一个语义,或一个单词同时具有多个不同的意思,这些的模糊歧义使语义的准确识别变得十分困难。

一、导入第三方库

 
 

二、中文分词

 
 

三、LDA分析

 
 
 

在这里插入图片描述

 

在这里插入图片描述
这里的主题数为啥是自定义为8(0~7),并不是凭空想象的,接下来可以通过可视化数据以及主题困惑度的方法得到最优的主题数。
四、可视化

 

在这里插入图片描述
五、主题困惑度

 
 

在这里插入图片描述

六、导出生成的主题号与原始主题进行对比

 

在这里插入图片描述

到此这篇lda主题模型分析结果(lda主题模型困惑度)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • win10双系统卸载linux(win10卸载linux子系统)2024-12-07 23:18:06
  • 返回上一级目录的快捷键(返回上一级文件夹的快捷键)2024-12-07 23:18:06
  • 字符串转码的作用(字符串转码的作用是什么)2024-12-07 23:18:06
  • yml文件配置(yml文件配置map)2024-12-07 23:18:06
  • lodop打印控件无法预览打印(打印预览控件安装不了)2024-12-07 23:18:06
  • 神秘代码 知乎(神秘代码细节分析)2024-12-07 23:18:06
  • 线上小程序制作多少钱(小程序制作花多少钱)2024-12-07 23:18:06
  • lda主题模型(LDA主题模型主题数的选择)2024-12-07 23:18:06
  • ddpm模型粒径要求(ddpm模型跟dpm区别)2024-12-07 23:18:06
  • tpoab全称(tpoab百科)2024-12-07 23:18:06
  • 全屏图片