唐宇迪深度学习30天系统实训
如果missing value所占比例大,那么直接将miss value当做一种特殊的情况,另取一个值填入
处理Outlier:这个就是之前EDA的作用了,通过画图,找出异常值
处理categorical feature:一般就是通过dummy variable的方式解决,也叫one hot encode,可以通过pandas.get_dummies()或者 sklearn中preprocessing.OneHotEncoder(), 我个人倾向于用pandas的get_dummies()
看个例子吧,

