欢迎光临散文网 会员登陆 & 注册

机器学习概览(通俗易懂版)

2023-01-03 14:53 作者:腾科IT教育官方账号  | 我要投稿

机器学习算法:

l 机器学习(包括深度学习分支)是研究“学习算法”的一门学问。所谓“学习”是指:对于某类任务和性能度量,一个计算机程序在上以衡量的性能随着经验而自我完善,那么我们称这个计算机程序在从经验学习。

 


人类与机器学习算法处理问题过程对比:



机器学习算法与传统基于规则的区别:

 


什么时候该使用机器学习:

l 问题的解决方案很复杂,或者问题可能涉及到大量的数据却没有明确的数据分布函数

l 遇到如下情况,可以考虑使用机器学习:

 


机器学习算法的理性认识:

 


l 目标函数f未知,学习算法无法得到一个完美的函数f

l 假设函数g逼近函数f,但是可能和函数f不同

 

 

 

 

机器学习解决的主要问题:

l 机器学习可以解决多种类型的任务,下面列出最典型的常见的三种:

分类:计算机程序需要指定输入属于k 类中的哪一类。 为了完成这个任务,学习算法通常会输出一个函数。比如计算机视觉中的图像分类算法解决的就是一个分类任务。

回归:这类任务中,计算机程序会对给定输入预测输出数值。学习算法通常会输出一个函数,这类任务的一个示例是预测投保人的索赔金额(用于设置保险费),或者预测证券未来的价格。

聚类:对大量未知标注的数据集,按数据的内在相似性,将数据划分为多个类别,是类别内的数据相似度较大,而类别间的相似性比较小。可以被运用在图片检索,用户画像等场景中

分类和回归是预测问题的两种主要类型,占到80%-90%,分类的输出是离散的类别值,而回归的输出是连续数值。

 

机器学习分类:

监督学习:利用已知类别的样本,训练学习得到一个最优模型,使其达到所要求性能,再利用这个训练所得模型,将所有的输入映射为相应的输出,对输出进行简单的判断,从而实现分类的目的,即可以对未知数据进行分类。

无监督学习:对于没有标记的样本,学习算法直接对输入数据集进行建模,例如聚类,即“物以类聚,人以群分”。我们只需要把相似度高的东西放在一起,对于新来的样本,计算相似度后,按照相似程度进行归类就好。

半监督学习:在一个任务中,试图让学习器自动地对大量未标记数据直接帮助少量有标记数据进行模型训练。

强化学习:学习系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接主义学习中的监督学习,主要表现在教师信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统如何去产生正确的动作。


• 监督学习:通俗的来讲,我们给计算机一堆选择题(训练样本),并同时提供了它们的标准答案,计算机努力调整自己的模型参数,希望自己推测的答案与标准答案越一致越好,使计算机学会怎么做这类题。然后再让计算机去帮我们做没有提供答案的选择题(测试样本)。

• 非监督学习:通俗的来讲,我们给计算机一堆选择题(训练样本),但是不提供标准答案,计算机尝试分析这些题目之间的关系,对题目进行分类,计算机也不知道这几堆题的答案分别是什么,但计算机认为每一个类别内的题的答案应该是相同的。

• 半监督学习:传统监督学习通过对大量有标记的训练样本进行学习以建立模型用于预测新的样本的标记。例如,在分类任务中标记就是样本的类别,而在回归任务中标记就是样本所对应的实值输出。随着存储数据能力的高度发展,在很多实际任务中可以容易地获取大批未标记数据,而对这些数据赋予标记则往往需要耗费大量的人力物力。例如,在进行 Web 网页推荐时,需请用户标记出感兴趣的网页,但很少有用户愿意花很多时间来提供标记,因此有标记的网页数据比较少,但Web 上存在着无数的网页,它们都可作为未标记数据来使用。

• 强化学习:通俗的来讲,我们给计算机一堆选择题(训练样本),但是不提供标准答案,计算机尝试去做这些题,我们作为老师批改计算机做的对不对,对的越多,奖励越多,则计算机努力调整自己的模型参数,希望自己推测的答案能够得到更多的奖励。不严谨的讲,可以理解为先无监督后有监督学习。

 

机器学习概览(通俗易懂版)的评论 (共 条)

分享到微博请遵守国家法律