如何真正从0到1打一场数据挖掘赛事《入门版》

2022-07-19 15:06 作者:二次元的Datawhale 0人读过 | 我要投稿

这是一份简易的竞赛教程，我们的目的是帮助同学们迈出 AI 训练大师之路的第一步。数据挖掘中会有很多需要学习的地方，建议入门的同学可以暂时不用着急去弄懂各个代码的原理，先跑通代码，然后看代码中的涉及的知识点去查询相关资料进行学习，这样能让你学习更加有目标性，也容易找到学习的乐趣。千里之行，始于足下，从这里，开启你的 AI 学习之旅吧！

—— 贡献者：牧小熊、骆秀韬

一、准备步骤

1.1 平台注册与比赛报名

赛事链接：
https://challenge.xfyun.cn/topic/info?type=diabetes&ch=ds22-dw-zmt01
注册（记得填写个人信息）

3. 点击报名参赛，显示成功报名

1.2 数据下载

数据获取

官网下载数据：下载数据及实名认证。
详细操作可查看：https://xj15uxcopw.feishu.cn/docx/doxcn11gwo7cEuAXWhCrDld4Inb
请把数据文件和代码文件放在同一个文件夹下，保证正常运行

1.3 参考资料

python环境的搭建请参考：

Mac设备：Mac上安装Anaconda最全教程 https://zhuanlan.zhihu.com/p/350828057
Windows设备：Anaconda超详细安装教程 https://blog.csdn.net/fan18317517352/article/details/123035625

二、实践思路

本次比赛是一个数据挖掘赛，需要选手通过训练集数据构建模型，然后对验证集数据进行预测，预测结果进行提交。

本题的任务是构建一种模型，该模型能够根据患者的测试数据来预测这个患者是否患有糖尿病。这种类型的任务是典型的二分类问题（患有糖尿病 / 不患有糖尿病），模型的预测输出为 0 或 1 （患有糖尿病：1，未患有糖尿病：0）

机器学习中，关于分类任务我们一般会想到逻辑回归、决策树等算法，在这个 Baseline 中，我们尝试使用决策树来构建我们的模型。我们在解决机器学习问题时，一般会遵循以下流程：

2.1 代码实现

以下代码，请在jupyter notbook或python编译器环境中实现

2.2 结果提交

在提交结果处提交，提交预测结果.csv（程序生成的CSV文件），查看自己的成绩排名

点赞过100，更新《进阶版》

标签：