欢迎光临散文网 会员登陆 & 注册

唐宇迪NLP-文本相似度

2023-03-04 14:02 作者:id母人  | 我要投稿

将一列的month数据展开为了12列,用0、1代表类别。
另外在处理categorical feature有两点值得注意:

  1. 如果特征中包含大量需要做dummy variable处理的,那么很可能导致得到一个稀疏的dataframe,这时候最好用下PCA做降维处理。

  2. 如果某个特征有好几万个取值,那么用dummy variable就并不现实了,这时候可以用


唐宇迪NLP-文本相似度的评论 (共 条)

分享到微博请遵守国家法律