数据科学与大数据技术专业-答辩参考问题一览
临近期末少不了大作业和答辩,在正式答辩前,先准备好以下这些问题,在被导师提问时会更游刃有余。 根据实验过程分为四个部分,分别是:数据探索与预处理、模型选择、模型训练、模型调优

1.数据探索与预处理部分
读入的数据是多大的?(表格是多少,图片是多少张,像素是几乘几)
进行了那些数据探索,分别是用来看什么的,针对异常数据是怎么处理的?
异常值有没有删去?对比删与不删对结果的影响了吗?一共删除了多少数据?
缺省值填充了吗?用的什么填充方式?是否对比过填充前后对结果的影响?
如果你的PPT里有图,那么她可能问你某一张或某几张图是什么?(这个图是用什么数据,什么函数生成的)
2.模型选择
可选的有哪些,你根据什么原因选择了你现在用的这些。
你有尝试过其他模型吗?尝试了那些?为什么没选呢?我看别的同学用某个模型你尝试过的模型效果很好啊,你这个为什么不行呢?有没有尝试模型融合呢?
3.模型训练
(每一个你用的参数都要知道他表示什么,然后你选择每个参数的理由。)
这里举例KNN和Adboost
KNN:用的是几层的网络?为什么选择这个层数?参数是自己跑的还是借鉴的?跑了多久,效果怎么样?
Adboost:选择的弱学习器是什么?最大迭代次数是多少?参数是自己跑的还是借鉴的?跑了多久,效果怎么样?.
效果最好是多少?
4.模型调优
用什么方法调参?调整后效果如何?
如有过拟合,那么你有没有试试找出到底是哪个变量影响了结果?
如有欠拟合,那么你试过重新处理数据或者多加入一些特征吗?有没有调整学习率?

暂时就写到这里了,希望能对你的答辩有所帮助,如果你遇到了不在这篇文章范围内的问题,欢迎在评论区一起交流。
如果你有别的想看的内容也可以写在评论区或者私信我。