欢迎光临散文网 会员登陆 & 注册

机器学习建模的问题大全

2021-10-05 13:21 作者:python风控模型  | 我要投稿

一、数据预处理

1、数据缺失值的处理:除了简单的填均值、众数外在竞赛中还有哪些方法有效提升分数;

2、数据异常值的处理:如何判断是否要处理异常值;若要处理,如何筛选出异常值,

如何对异常值做处理能有效提升分数;

3、如何分析训练集和测试集的特征分布及影响;

4、对特征分布影响预测效果的分析,如何修正特征分布能提升预测分数,比如 log变

换等,如何使用。回归问题的标签列是否需要做变换。

5、类别变量的处理技巧

6.高维度如何降维?


二、特征工程

1、特征和特征之间、特征和标签之间的关系如何分析和利用,在竞赛中有效的方法有哪些?

2.有时用相关系数法对特征-标签进行分析,都是无相关性,这时要怎么利用特征呢?

3、特征数量较少时,是否需要构造新特征,常用的构造方法有哪些呢,如何评估构造的新特征好坏?实践中手动构造特征较为低效,特征构造的有哪些高效的工具可用?匿名特征如何构造分析?

4、特征数量较多时,是否需要特征选择,常用的选择方法有哪些,如何结合多方法综合评估,如何评估选择结果的好坏?


三、模型训练

1、怎么读取数据

2、怎么划分训练集和验证集


四、模型调参

1、在模型训练时要配置哪些参数?

2、逻辑回归,SVM,神经网络,XGBoost和 LightGBM等模型的调参参数及参数范围是多少?

3、模型自动化调参GridSearch 和 RandomSearch是什么?


五、模型验证

1.模型验证指标有哪些?

2.模型验证指标怎么选择?

3.accuracy是什么?

4.ks是什么指标?

5.AUC是什么指标?

6.混淆矩阵是什么?

7.PSI是什么?

8.模型区分能力指标有哪些?

9.模型稳定性指标有哪些?


六、融合模型

1.stacking融合模型在kaggle竞赛应用

2.stacking融合模型原理是?

3.融合模型可以提高accuracy准确率吗?

4.stacking融合模型可以提高AUC吗?

5.stacking融合模型可以提高f1分数吗?

6.stacking融合模型如何绘制决策域decision region?

7.如何用概率值作为元特征训练融合模型?

8.stacking融合模型和gridsearch网格调参

9.stacking融合模型和机器学习管道pipeline综合应用

10.stacking融合模型python脚本是?



七、非平衡数据

1.非平衡数据是什么?

2.非平衡数据对模型有什么坏处?

3.解决非平衡数据方法(欠采样,过采样,SMOTE)

4.SMOTE非平衡数据处理python脚本是?



八、异常样本检测

1、异常样本检测问题如何分析建模。

2、异常值检验方法有哪些?


欢迎各位同学了解<python机器学习-乳腺癌细胞挖掘>课程,解决上述问题,系统化学习机器学习建模知识


版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。



机器学习建模的问题大全的评论 (共 条)

分享到微博请遵守国家法律