1.1 课程介绍【斯坦福21秋季:实用机器学习中文版】

机器学习在某些领域可以节省大量成本
机器学习涉及的领域
比如制造业,可以用于哪些设备需进行维护,对于购买磨损程度不一样的设备时,可以加入传感器进行预测,还有通过生产线生成出的产品,可以通过摄像机获得更好的传感器来判断产品的质量。
零售行业,通过判断用户过去的喜好预测未来用户会买什么样的东西,与商家进制互动的过程可以通过ai替代掉(如简单的对话),类似无人商场,零售员服务员的开销是非常大的,所以可以用ai替代掉,无人自助可以增加用户的体验(但其实这是一个比较难的问题,很多用户的情况下如何通过ai去算出用户拿了什么,没有那什么)。另外一方面,对于商家来说需要预测产品在未来的销量,使得他可以提前布货,
健康领域,人们可以用穿戴式的传感器,一旦健康出现问题,信号会实时的穿回产生一个报警信号,如果某些人会去医院拍照,做核磁共振,测心电图,这类流程在结束后之后的流程基本是将结果返还给医生,由医生判断你有什么问题,其实这块的流程可以用ai替换掉(通过机器学习来判断你扫描出的数据是否存在问题)。
金融业,最常见的应用是对于欺诈的检测,比如盗刷账号,或者恶意让别人购买东西,都可以通过检测终止掉交易,还有各种理财产品用户需要填各种东西贷款什么的,之后的流程可以自动化的进行检测你是否够资格购买这些东西。
汽车业,在汽车中其实有很多传感器,这些传感器会预测车的各个方面(如车胎,油耗)是否需要进行维护,还有无人驾驶,在汽车中装上各种的激光雷达摄像头使得他能够替代人来开车。
可以替代人们部分简单的工作,但是某些我们人类做起来比较简单的事情机器做起来就特别难,比如抓住一件物体,这对机器来说是比较困难的事情,他得分清这些物体是软的还是硬的(听说软的东西对ai来说特别难抓),每根手指需要分配多少数值来用于抓去。
流程
发现问题并且变成机器学习的问题(这需要对机器学习的算法有全面的了解) -> 收集数据(注意尽量选取高质量的数据) -> 选择机器学习模型使用采集的数据训练模型 -> 将模型部署到线上 -> 关注模型的性能,模型的预测精度 -> 在部署后一般会得到新的数据所以继续收集数据 -> 选择模型得到更新的数据(至此就是一个闭环了,这是一个迭代的过程)
对于数据,虽然这个世界不缺数据,但是获得高质量的数据是很难的,需要做大量的清洗标注,使得模型能够更快的学习
注意点,对于数据的挖掘,这和用户的隐私构成冲突。比如健康领域,和人类生理信号相关的数据是非常敏感的
模型的训练(从60年代到现在,近年七八年对于深度学习模型的训练基本是指数级别的增长)如果模型越大,那么你对数据的需求也会越多,使得你需要收集更多的数据。
当模型训练出来后,如果训练的模型很大,部署到线上费用很高,可能需要很多gpu来进行对线上模型的预测 如果是实时的,那么你对模型需要有很严格的控制。
当模型已经部署好后,其实你还没有完成一个轮回,还剩下最后一步,你发现你的模型需要不断的更新,所以你要长期监控你的机器学习模型,不断提升你的模型这是个非常长期的过程,你的数据分部可能会发生变化(这导致你在一下地方训练模型,当去了另外一个地方预测会出现问题)举个例子,你的网站用户群体发生了变化(小年龄用户年龄变大),这导致预测出来的结果是不一样的。
还有需要注意的方面,由于我们是用算法来做决定的,所以我们如果用算法代替人来做决定的话,这会诞生公平性的问题,算法本身是公平的,但是人们自身的数据可能会,如果你的数据在某部分群体的评估中比较好,算法评估很正常,但是在不那么具有代表性的群体中,就会存在交大的偏差,会导致对这块人群会有不公平的,这会导致不公平,所以机器学习在作用越来越大时,公平性也是一个很重要的问题。
训练模型的人在各个领域起到的作用,将相关的人分成4类:1. 领域专家 懂商业,懂产品干什么,产品重要的是什么,知道哪些数据是比较重要的和知道这些数据在什么地方,在某个地方如果部署机器学习模型的话,对产品有多大影响,部署到重要的地方。2. 数据科学家在机器学习中类似全栈,需要做数据的挖掘搞数据训练模型。3. 机器学习专家,对产品的特点,需要什么样的模型,模型的性质很了解,能够对模型的定制化。4. sde软件开发工程师,开发维护大量的代码大量的产品还包括将数据式时的从服务器,产品那抽取过来做高性能的数据处理,并且管理模型训练管理这些资源使得我能够按时训练完重要的模型