HanLP实战教程：离线本地版分词与命名实体识别

2023-04-06 15:31 作者:TimFan 0人读过 | 我要投稿

HanLP是一个功能强大的自然语言处理库，提供了多种语言的分词、命名实体识别等功能。然而，网上关于HanLP的说明往往比较混乱，很多教程都是针对很多年前的API用法。而HanLP官网主要讲述的是RESTful格式的在线请求，但很少提到离线本地版本。

本文将介绍如何在离线本地环境中使用HanLP 2.1的native API进行中文分词和命名实体识别。本文使用的HanLP版本为HanLP 2.1.0-beta.46。

基本思路是选择单任务API，并加载了预训练模型。首先对示例句子进行分词（Tokenizer），然后再根据分词结果进行命名实体识别（NER）。

1. 首先，我们需要安装HanLP库。使用以下命令进行安装

3. 根据分词结果进行命名实体识别

在这个过程中，我们选择了单任务API。这种方法相较于RESTful API更适合本地离线使用，并且避免了网络延迟等问题。

在HanLP教程的GitHub页面（https://github.com/hankcs/HanLP）中，有一个表格包含了不同功能、RESTful API、多任务API、单任务API以及预训练模型等具体信息。这些信息可能不太容易找到，因此建议重点关注。

在实际使用过程中，可以根据自己的需求选择合适的预训练模型。同时，HanLP还提供了多任务API，允许用户在一个统一的框架下执行多种任务，如分词、词性标注和命名实体识别等。

HanLP教程：https://github.com/hankcs/HanLP
分词教程：https://hanlp.hankcs.com/docs/api/hanlp/pretrained/tok.html
命名实体识别教程：https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/ner_stl.ipynb