深度之眼文本分类科研小班
2023-07-26 15:45 作者:bili_34604920956 | 我要投稿
数据清洗
在实际的中文文本分类问题中,我们面对的原始中文文本数据经常会存在许多影响最终分类效果的部分,这部分数据或文本都需要在文本分类最开始的时候就被清洗干净,否则很容易导致所谓的“Trash in,trash out”问题。除了一般分类问题的数据清洗都包含的缺失值处理、去重处理和噪声处理等步骤之外,中文文本分类还应该做到以下的清洗与处理以下数据:
非文本数据
很多时候我们的分类文本都来自爬虫的爬取结果,因此文本中常常会附带有HTML标签、URL地址等非文本内容,所以需要清除这部分内容对分类没有什么帮助的内容。
长串数字或字母
通常情况下中文文本中长串的数字代表手机号、车牌号、用户名ID等文本内容,在非特定的文本分类情境下可以去除。或者将其转换为归一化的特征,如是否出现长串数字的布尔值特征HAS_DIGITAL、按长度归一的DIGIAL_LEN_10等等。值得一提的是,表情代号常常作为长串数字或字母出现,却能在情感分析中却能起到巨大作用。
无意义文本
此外,还需要过滤掉剩余文本当中的诸如广告内容、版权信息和个性签名的部分,毫无疑问这些也都不应该作为特征被模型所学习。

