深度学习【达观杯】文本智能处理挑战赛指导(NLP方向)
数据预处理:表情、符号会影响后续的处理,所以去掉;
特征工程:生成向量=feature;(是机器学习中最重要的部分,深度学习也是完成这一步。有个说法是:特征决定了机器学习的上限,而机器学习算法只是为了逼近这个上限)
模型的输入输出:都是模型所规定好的特征空间和类别空间。
注:字和词:单个词才能表达一个完整的意思,比如“垃圾”,分开一个字意思,就不能够表达组合的意思(有些情况是可以的)。
1.3 脱敏数据
数据预处理:表情、符号会影响后续的处理,所以去掉;
特征工程:生成向量=feature;(是机器学习中最重要的部分,深度学习也是完成这一步。有个说法是:特征决定了机器学习的上限,而机器学习算法只是为了逼近这个上限)
模型的输入输出:都是模型所规定好的特征空间和类别空间。
注:字和词:单个词才能表达一个完整的意思,比如“垃圾”,分开一个字意思,就不能够表达组合的意思(有些情况是可以的)。
1.3 脱敏数据