如何真正从0到1打一场数据挖掘赛事《入门版》
2022-07-19 15:06 作者:二次元的Datawhale | 我要投稿
—— 贡献者:牧小熊、骆秀韬

一、准备步骤
1.1 平台注册与比赛报名
赛事链接:
https://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-zmt01注册(记得填写个人信息)


3. 点击报名参赛,显示成功报名


1.2 数据下载
数据获取
官网下载数据:下载数据及实名认证。
详细操作可查看:https://xj15uxcopw.feishu.cn/docx/doxcn11gwo7cEuAXWhCrDld4Inb请把数据文件和代码文件放在同一个文件夹下,保证正常运行
1.3 参考资料
python环境的搭建请参考:
Mac设备:Mac上安装Anaconda最全教程 https://zhuanlan.zhihu.com/p/350828057
Windows设备:Anaconda超详细安装教程 https://blog.csdn.net/fan18317517352/article/details/123035625
二、实践思路
本次比赛是一个数据挖掘赛,需要选手通过训练集数据构建模型,然后对验证集数据进行预测,预测结果进行提交。
本题的任务是构建一种模型,该模型能够根据患者的测试数据来预测这个患者是否患有糖尿病。这种类型的任务是典型的二分类问题(患有糖尿病 / 不患有糖尿病),模型的预测输出为 0 或 1 (患有糖尿病:1,未患有糖尿病:0)
机器学习中,关于分类任务我们一般会想到逻辑回归、决策树等算法,在这个 Baseline 中,我们尝试使用决策树来构建我们的模型。我们在解决机器学习问题时,一般会遵循以下流程:

2.1 代码实现
以下代码,请在jupyter notbook或python编译器环境中实现
2.2 结果提交
在提交结果处提交,提交 预测结果.csv(程序生成的CSV文件),查看自己的成绩排名




点赞过100,更新《进阶版》

