欢迎光临散文网 会员登陆 & 注册

HanLP实战教程:离线本地版分词与命名实体识别

2023-04-06 15:31 作者:TimFan  | 我要投稿

        HanLP是一个功能强大的自然语言处理库,提供了多种语言的分词、命名实体识别等功能。然而,网上关于HanLP的说明往往比较混乱,很多教程都是针对很多年前的API用法。而HanLP官网主要讲述的是RESTful格式的在线请求,但很少提到离线本地版本。

        本文将介绍如何在离线本地环境中使用HanLP 2.1的native API进行中文分词和命名实体识别。本文使用的HanLP版本为HanLP 2.1.0-beta.46

        基本思路是选择单任务API,并加载了预训练模型。首先对示例句子进行分词(Tokenizer),然后再根据分词结果进行命名实体识别(NER)。

1. 首先,我们需要安装HanLP库。使用以下命令进行安装

2. 对示例句子进行分词

3. 根据分词结果进行命名实体识别


        在这个过程中,我们选择了单任务API。这种方法相较于RESTful API更适合本地离线使用,并且避免了网络延迟等问题。

https://github.com/hankcs/HanLP 的介绍表格

         在HanLP教程的GitHub页面(https://github.com/hankcs/HanLP)中,有一个表格包含了不同功能、RESTful API、多任务API、单任务API以及预训练模型等具体信息。这些信息可能不太容易找到,因此建议重点关注。

        在实际使用过程中,可以根据自己的需求选择合适的预训练模型。同时,HanLP还提供了多任务API,允许用户在一个统一的框架下执行多种任务,如分词、词性标注和命名实体识别等。


参考资料

  • HanLP教程:https://github.com/hankcs/HanLP

  • 分词教程:https://hanlp.hankcs.com/docs/api/hanlp/pretrained/tok.html

  • 命名实体识别教程:https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/ner_stl.ipynb


HanLP实战教程:离线本地版分词与命名实体识别的评论 (共 条)

分享到微博请遵守国家法律