唐宇迪数据科学人工智能-必备数学基础
Step 3: Feature Engineering
理论上来说,特征工程应该也归属于上一步,但是它太重要了,所以将它单独拿出来。kaggle社区对特征工程的重要性已经达成了共识,可以说最后结果的好坏,大部分就是由特征工程决定的,剩下部分应该是调参和Ensemble决定。特征工程的好坏主要是由domain knowledge决定的,但是大部分人可能并不具备这种知识,那么只能尽可能多的根据原来feature生成新的feature,然后让模型选择其中重要的feature。这里就又涉及到feature selection,
有很多方法,比如backward,forward selection等等。我个人倾向于用random forest的