噪音算是一些数据集中没有用的文本
弱监督学习:放入一些情感分析的模型,让它做一些比如对于情感程度的判断,如果评论的极性大于0.9,那么可以说是这样的文本是spam,不是噪音。算是一个有用的文本
第二点就是一些这种类型的数据集该有的一些关键词,查找这类的关键词。第三方模型或者正则表达式