欢迎光临散文网 会员登陆 & 注册

1.1 课程介绍【斯坦福21秋季:实用机器学习中文版】

2021-10-23 10:21 作者:zerodel  | 我要投稿

#  斯坦福21年秋季实用机器学习课程第1课


这是系列课程的第1个讲座,

是课程的大致介绍



首先介绍了机器学习作为技术本身,

它的大致构成以及所面临的一些挑战.


然后讲述学习机器学习,你会变成什么样的角色.


最后讲述了本课程中会涉及到哪些主题.


## 作为技术本身的机器学习


这里使用的案例是房价预测.


06:42






### 工业界中应用机器学习的基本流程


机器学习的应用是一个循环过程.


他从问题表述开始到收集数据建立模型并将模型上线.

上线之后要对模型不停的监测并重复更新模型.  





09:21




1. Problem formulation

首先是将实际问题换一种描述方式,

表述成机器学习可以解答的数学问题.  (Problem formulation)


比如房价预测就是一个回归(regression)问题.


2. Data


然后是数据 (Data )的收集与整理



3. Train Models


之后在这些数据基础上训练并调整模型(Train models).


实际操作中会从一个相对简单的模型开始.


4. Deploy models

   

模型完成之后就开始部署上线(  Deploy models)



5. Monitor

模型并不能一劳永逸, 你需要不停的监控 (Monitor)


比如查看模型是否符合实际情况?

是否需要增加数据?

或者数据是否已经发生了重大的变化,需要调整模型?


在监测过程中, 从收集数据开始的循环可能要重复多次



### 机器学习的挑战


这个模型流程中遇到的挑战



14:42




#### Formulate problem



15:02


(Formulate problem)问题方面: 很多问题用机器学习来处理会很难.


要将实际问题转化, 方便机器学习处理.

就是要把很多的事情用数字表示出来.


这往往很难.


因为用数字表述出来,意味着测量.

而测量的前提就是有一个客观的量,并且它能被量化.


但很多问题我们都习惯用身体, 用神经系统去感受它. 而不是用仪器测量.


比如说叠被子, 我们能感受到自己手部的动作,

我知道,我在伸手,我在握拳.

但你如果需要描述手部动作的话, 就会变得非常繁琐



#### 数据 Data


16:43



这个世界上数据很多, 但好数据不多.


另外提取数据的过程, 会涉及隐私问题.

你想更全面的了解一个人用户的信息,不可避免的会侵犯他的隐私.



#### Model


18:07



从机器学习发展至今, 模型变得越来越贵越来越重

同时他们对数据量的需求也越来越大.

尤其是大家开始热衷于深度学习之后.


#### Deploy


19:04



你可能发现自己的模型需要的GPU太多


或者说你的模型运行了以后,无法达到实时性要求


#### Monitor


19:54



监控模型是一个长期过程, 要时刻调整模型


因为数据会发生变化. 比如你的用户群体会发生变化,

节假日的时候,你的用户群体行为也会变


另一方面用算法决定事情,会带来公平性的讨论.


21:15



因为算法依赖于数据来建立.而数据可能存在偏向性.

这就导致了模型会在不同人群中效果不一样.


典型的例子就是一些脸部特效.

常用的人脸照片训练集中,白人比较多, 所以这些特效对黑人处理起来就会出一些奇奇怪怪的问题



## 工业界中机器学习与人


### 学了机器学习, 可以胜任哪些岗位?


机器学习的角色定位:



22:30



领域专家: 知晓产品的需求,知道模型的价值, 以及在哪用最好.


数据科学家:  可以理解为全栈程序员, 需要负责从处理数据到模型上线的全部过程


机器学习专家: 专注于模型的改进


软件开发工程师(SDE): 就是码农, 他们需要在软件代码运行维护方面出力.


这些角色之间可以转化,大致的发展路线如下



领域专家或者软件开发工程师可以慢慢的发展,成为数据科学家.

数据科学家也可以进一步提升自己的技能,变成机器学习这一领域的专家


## 我们课程中会学习的一些主题


### 课程的前提要求与特点

 


这门课需要的基础是一些基本的统计知识,一些基础的编程


数据科学家把时间花在哪儿?时间的大头花在数据处理上.


31:57




所以本门课程里面也会花很长的时间来讲述如何处理数据,而并不是仅仅关注于模型的建立



### 课程的主题:


本课程会侧重于一些经典的机器学习课教科书上不会提及,但在工业界中会涉及到的内容


33:43




#### 数据


34:54



需要学会如何处理实际的数据.


也就是说要应对数据中的各种偏倚,

并且 真实数据往往没法做到独立同分布(iid)


#### 训练


35:38



除了一般的模型建立外.


课程中还涉及

模型验证

融合

超参数


迁移学习


多模态 : 你的数据涉及多种形态, 文本时间戳等等,你需要把这些不同形态的数据融合成一个整体的模型


等主题


#### 部署


36:44


本课程除了讲述模型如何部署如何提升性能之外,


还会涉及

模型的蒸馏(大模型变小)


#### 监测


37:18


会讲解模型的


公平性

可解释性



## 小结


37:47





这门课讲解工业界的机器学习,

关注机器学习如何在工业界落实


你将学会作为数据科学家在工业界中使用机器学习各个步骤所需的知识,

往往经典的教科书并不会提及这些知识或者细节.


1.1 课程介绍【斯坦福21秋季:实用机器学习中文版】的评论 (共 条)

分享到微博请遵守国家法律