Python文本挖掘——LDA模型实现

2020-05-18 10:42 作者:唐基老爹 0人读过 | 我要投稿

注：完整代码可以关注公众号获取

1、简介

在机器学习领域，LDA是两个常用模型的简称：Linear Discriminant Analysis和Latent Dirichlet Allocation。本文的LDA是指Latent Dirichlet Allocation，它在主题模型中占有非常重要的地位，常用来文本分类。

LDA由Blei, David M.、Ng, Andrew Y.、Jordan于2003年提出，用来推测文档的主题分布。它可以将文档集中每篇文档的主题以概率分布的形式给出，从而通过分析一些文档抽取出它们的主题分布后，便可以根据主题分布进行主题聚类或文本分类。

2、原理

LDA模型它是一种典型的词袋模型，即一篇文档是由一组词构成，词与词之间没有先后顺序的关系。此外，一篇文档可以包含多个主题，文档中每一个词都由其中的一个主题生成。

人类生成文档是基于概率选取主题及其对应的词汇的方式，即一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”这样一个过程得到。

那么LDA要做的就是通过文档反推主题。文档到主题服从多项式分布，主题到词服从多项式分布。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。

用LDA来进行主题建模就是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。

3、实现过程

这一过程可以通过Python轻松实现。需要的Python 包有：

•pandas，pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。在 Windows 下使用 pip 安装：pip install pandas.•gensim，包含我们要用到的 LDA 模型的一个主题模型包。在 Windows 下使用 pip 安装：pip install gensim.•jieba，是一款优秀的 Python 第三方中文分词库。在 Windows 下使用 pip 安装：pip install jieba.

3.1 导入包

3.2 分词

3.3 将文档表示成词袋向量

3.4 LDA建模

打印主题

完整代码

近期文章

Python入门：

Python安装与环境配置

Python基础用法 |《Python与开源GIS》

Python读取excel的两种方法

Python读取json数据

Python基本库——解析库XPath

Python基本库—正则表达式（regex）

第一个Python爬虫

空间分析：

开工了开工了！空间计量模型系列教程一

空间计量模型系列教程二

情人节特辑之带有惊喜的空间计量模型系列教程三

空间计量模型系列教程四

空间计量模型系列教程五（完结啦）

空间计量||空间权重矩阵

空间计量——用GeoDa和stata生成空间权重矩阵的方法

空间计量|| matlab实现空间计量模型SAR、SEM、SDM

分享||空间计量科研工具（一）

区域经济：

经济地理学是经济学还是地理学？附重点外文期刊目录

经济地理基本认识：异质性与尺度、格局、结构、功能

分享||区域与城市经济学、房地产经济学与资源环境经济学慕课

复旦大学城市经济研究所推荐阅读文献

北京大学《城市经济学》推荐阅读文献

城市、区域经济学必读书目推荐

其他：

MK突变检验的matla实现

一个机智的MATLAB出图tips

综合评价||泰尔指数的matlab实现

空间计量之评价||DEA常见模型的matlab的实现（1）——CCR

空间计量之评价||DEA常见模型的matlab的实现（2）——非期望产出SBM

空间计量之评价||DEA常见模型的matlab的实现（2）——无非期望产出SBM

CiteSpace实操教程

基于SPSS的调查问卷信度和效度检验

标签：