欢迎光临散文网 会员登陆 & 注册

[Python-gensim]LDA主题模型全解析:理论讲解、C刊精读与代码实操

2023-08-16 14:03 作者:nongfusummer  | 我要投稿

LDA主题模型全解析



00:15




03:36


将语料库输入LDA,结果:(1)语料中隐含哪些主题(2)提取主题词(3)根据不同主题在某篇文档中的概率分布,将该篇文档进行主题归类


04:59


主题热度-评估相关主题的演化趋势

  • 
    07:35
    
  • LDA进行主题识别
  • 确定最优主题数目
  • 主题热度计算
  • 主题热度随时间变化


08:02


阈值-取均值

  • 
    11:51
    
  • jieba分词的处理
  • LDA可以获取文档-主题概率矩阵和主题-词分布
  • 基于文档-主题概率矩阵,计算主题强度,识别热点主题
  • 基于主题-词分布,凝练主题内容,并绘制词云


12:32


  • 
    14:25
    
  • 
    15:59
    
  • 结合LDAvis判断最优主题数目(更直观)
  • 不同主题类别的文献数量统计,不同主题分时间段的文献数量统计


16:30


最优主题数目的确定按照一致性得分(coherence score),不同于之前三篇文章

  • 
    17:57
    
  • 依据LDA主题提取结果绘制主题演进桑基图


  • LDA功能实现
  • 文本预处理
  • 结合ldavis确定最优主题书
  • 文档-主题矩阵
  • 主题-词分布
  • 主题强度/热度计算
  • 分阶段强度/热度
  • 各主题包含的文档数量统计
  • 随时间变化
  • 主题词云
  • 主题演进桑基图




[Python-gensim]LDA主题模型全解析:理论讲解、C刊精读与代码实操的评论 (共 条)

分享到微博请遵守国家法律