使用 roberta_wwm 模型实现文本分类
可在线运行的notebook链接:在kaggle网站搜索:
Use roberta_wwm_Chinese for text classification
首先将uer仓库克隆下来。该仓库是人大和北大合作发布的模型训练工具包,非常好用:
接着我们修改当前目录为项目的根目录:
接着我将kaggle上的模型移动到项目的models目录下:(当然,你可以使用其他型号的模型,你可以在github的uer仓库中找到其他bert型号的模型)
接着,我们就可以进行模型训练了:(请注意修改对应的参数,具体每个参数的作用请看下我的视频)
当你完成模型的训练之后,你可以进行批量的预测,然后将预测后的数据用于人工审核,最终得到更多高质量的数据,从而可以训练得到更强的模型: