中文分词工具

一款产品的推出,运营者会为了收益亦或者流量,努力地去考虑如何覆盖到互联网的每一个角落。
假如,用户需要对处理某个内容进行分词处理、自然语言处理、中文分词、词性标注等相关操作。天上掉下来一款不错的工具是可以很好地压缩时间成本。
只是发帖,期待着有人会进行解答,这样的效果似乎并不会很好...
尝试去检索,你的礼物在安静地等着你呢!

HanLP
hanlp提供自然语言处理全功能:自然语言处理、中文分词、词性标注、命名实体识别、依存句法分析、语义依存分析、新词发现、关键词短语提取、自动摘要、文本分类聚类、情感分析、拼音简繁转换、人工智能以及各类api的接口。


Stanford分词
tanford分词是一个基于自然语言处理技术的分词工具。
Stanford分词可以将文本按照句子和单词进行分割,是一款非常实用的分词工具。这个工具是由斯坦福大学的自然语言处理小组开发的,使用了一些非常高级的算法和技术,包括隐马尔可夫模型和条件随机场等机器学习算法。


Ansj中文分词工具
这是一个基于n-Gram+CRF+HMM的中文分词的java实现。
分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。
目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。
可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。

ltp.ai/

KCWS分词器

THULAC:一个高效的中文词法分析工具包
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。进行分词速度可达到1.3MB/s。

NLPIR大数据语义智能分析平台(之前发过,这一个偶尔不靠谱)

ROST系列文本内容挖掘分析平台,我个人喜欢用来处理小文本,只是要会用。
有好多的,文皮皮、jieba、ik,weici各种各样看自己喜欢。