文本聚类主要用于提升数据标注的效率,首先我们有一批数据,它们在xlsx文件中保存于text列,如下图所示:
接着我们使用文本聚类工具可以为每一段句子打上标签。注意这里的标签仅仅是数字,只是表示它们比较相关,后续具体的标签名需要自己定。聚类结果如下图:
在上一张图片中,标签名是我自己定义的,原本聚类结果的标签是1。那么得到这些数据的作用是为了训练文本分类模型。文本聚类的具体代码如下: