Datawhale5月开源学习
开源贡献:Datawhale团队
这是今年五月份的组队学习,这次学习于5月8日报名,内容如下:
(1) 数据挖掘(异常检测)
(2) Web开发入门教程
(3) 集成学习(下)
关于开源
Datawhale作为开源组织,更多是希望营造互促的学习氛围和纯粹的学习环境,所有学习内容和学习规划都将开源在Datawhale Github上,方便大家有监督和无监督学习,从而帮助到更多学习者成长。
开源内容
截止今日,Datawhale已经近开源30多门学习内容,涉及编程、数据挖掘、cv、nlp、强化学习和推荐系统六大模块,这来自每一个开源贡献者的参与。
开源地址
https://github.com/datawhalechina/team-learning
组队学习
关于组队学习,顾名思义,就是一群志同道合的小伙伴聚集一起,一起学习,一起讨论,一起组队打boss,一起克服拖延症。其实没有老师,没有教学,有的是一群热爱学习和渴望改变的小伙伴,交流学习,互促共进。
或许你可以【组队学习的那些事】系列文章进一步了解:《闻韶:我的组队学习经历》、《罗如意:从学习者到加入组织》、《黄元帅:组队学习的大航海模型》
开源学习
数据挖掘(异常检测)
开源贡献:梁家晖、李玲、李芝翔、赵可、陈信达、林星良
组队学习说明:旨在帮助学习者理解传统的异常检测方法原理,并具备基本的调用相应python库进行操作的能力。
任务路线:掌握给予统计学的异常检测方法,线性模型学习,掌握基于相似度的方法等。
组队学习周期:15天定位人群:熟悉数据挖掘的基本方法,对学习异常检测算法有需求的学习者。难度系数中每个任务完成大概所需时间:3-5h
任务预览(3天)
Task02:基于统计学的方法(3天)
掌握基于高斯分布的异常检测方法
理解非参数异常检测方法
掌握HBOS算法

Web开发入门教程
开源贡献:张梁、王晓亮、何锋丽、张少波、谢文昕
组队学习说明:帮助你熟悉datawhale项目开发流程、REST前后端分离理念及OpenAPI文档编写、Django后端开发技术架构、Vue前端开发、前后台端对接。
任务路线:环境搭建与初步了解、熟悉后端代码结构及openAPI文档编写等
组队学习周期:16天
定位人群:有一定编程基础的同学,有实际开发经验更佳。难度系数中每个任务完成大概所需时间:3-5h
任务预览(2天)
Task02:熟悉datawhale需求及编写新API文档(2天)
熟悉用户及权限管理需求
设计用户及权限管理相关RESTful API
补充openapi.yaml并添加用户及权限管理相关入口
熟悉赛事管理需求
设计赛事管理相关RESTful API
补充openapi.yaml并添加赛事管理相关入口

集成学习(下)
开源贡献:李祖贤、薛传雨、赵可、杨毅远、陈琰钰、李嘉骐
组队学习说明:之前大家系统学习了机器学习的经典的算法、bagging/boosting等基本集成方法的思路、理论推导和库文件调用。本次我们将学习使用多个模型的训练结果进行最终的融合。之前的学习中我们一直使用模型库自带的小型数据来进行练习,本次在模型训练和融合全部完成后,我们还将使用两个较大的真实数据来进行完整的调参融合练习。我们从数据预处理开始,到子分类器的训练,再到集成学习,一步一步深入浅出,手把手带领大家直观感受集成学习。
任务路线:Blending集成学习算法、Stacking集成学习算法、集成学习案例。
组队学习周期:15天定位人群:已完成集成学习(上、中)课程内容的学习,具备《高等数学》、《线性代数》、《概率论与数理统计》基础,了解机器学习经典模型的理论知识,能够调用相应模型库解决实际问题的学习者。难度系数中每个任务完成大概所需时间:3-5h⚠️ 特别提示:已报名并完成集成学习(中)所有学习内容的同学不需要重复报名。直接报名集成学习(下)的同学需要自行完成集成学习(上、中)课程内容的学习。
任务预览(2天)
Task12:Blending集成学习算法(2天)
Blending是学习Stacking算法的基础,不知道大家小时候有没有过这种经历:老师上课提问到你,那时候你因为开小差而无法立刻得知问题的答案。就在你彷徨的时候,由于你平时人缘比较好,因此周围的同学向你伸出援手告诉了你他们脑中的正确答案,因此你对他们的答案加以总结和分析最终的得出正确答案。相信大家都有过这样的经历,这就是Blending算法的核心。
参与学习
快速通道
a. Web开发入门教程
开源内容:https://github.com/datawhalechina/whale-web
b. 数据挖掘实践(异常检测)
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/AnomalyDetection
c. 集成学习(下)
开源内容:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning
学习规则
1.需交督促金3块:1块学习,1块分享,1块成长;2.需要有一个可以记录学习笔记的公开帐号;
3.根据任务安排学习,完成后写学习笔记;4.任务截止前在群内打卡,遇到问题一起交流;
5.未按时打卡的同学视为放弃,流出学习群。
报名方式
5月8日中午11:30 在Datawhale高校群和在职群分享报名二维码。由于组织学习非盈利,精力有限,没有报上名的可以根据开源教程自行安排学习。
最后,未在社群的小伙伴,可在公众号后台回复关键词“在校”或“在职”进群(已在的不需要重复加入)。