欢迎光临散文网 会员登陆 & 注册

机器学习的应用及发展

2022-05-23 19:06 作者:迈高科技  | 我要投稿

Vol.1什么是机器学习


机器学习(Machine Learning,ML)是人工智能的核心,涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构从而不断改善自身的性能。


相对于传统机器学习利用经验改善系统自身的性能,现在的机器学习更多是利用数据改善系统自身的性能。基于数据的机器学习是现代智能技术中的重要方法之一,它从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。


Mitchell 在1997给出了一个更形式化的定义:假设用P(Performace)来评估计算机程序在某类任务T(Task)上的性能,若一个程序通过利用经验E(Experience)在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。


Vol.2 机器学习包含哪些内容

机器学习按照学习形式进行分类,可分为监督学习、无监督学习、半监督学习、强化学习等。区别在于,监督学习需要提供标注的样本集,无监督学习不需要提供标注的样本集,半监督学习需要提供少量标注的样本,而强化学习则需要反馈机制。


1.监督学习

监督学习是利用已标记的有限训练数据集,通过某种学习策略/方法建立一个模型,实现对新数据/实例的标记(分类)/映射。监督学习要求训练样本的分类标签已知,分类标签的精确度越高,样本越具有代表性,学习模型的准确度越高。监督学习在自然语言处理、信息检索、文本挖掘、手写体辨识、垃圾邮件侦测等领域获得了广泛应用。

监督学习的输入是标注分类标签的样本集,通俗地说,就是给定了一组标准答案。监督学习从这样给定了分类标签的样本集中学习出一个函数,当新的数据到来时,就可以根据这个函数预测新数据的分类标签。


在监督学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对反垃圾邮件系统中的“垃圾邮件”“非垃圾邮件”分类等。


在建立预测模型的时候,监督学习建立一个学习过程,将预测结果与“训练数据”的实际结果进行比较,不断调整预测模型,直到模型的预测结果达到一个预期的准确率。

最典型的监督学习算法包括回归和分类等。


2.无监督学习

无监督学习是利用无标记的有限数据描述隐藏在未标记数据中的结构/规律。无监督学习不需要训练样本和人工标注数据,便于压缩数据存储、减少计算量、提升算法速度,还可以避免正负样本偏移引起的分类错误问题,主要用于经济预测、异常检测、数据挖掘、图像处理、模式识别等领域,例如组织大型计算机集群、社交网络分析、市场分割、天文数据分析等。
无监督学习与监督学习相比,样本集中没有预先标注好的分类标签,即没有预先给定的标准答案。它没有告诉计算机怎么做,而是让计算机自己去学习如何对数据进行分类,然后对那些正确分类行为采取某种形式的激励。
在无监督学习中,数据并不被特别标识,学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法、KMeans算法、随机森林(random forest)、主成分分析(principal component analysis)等。


3.半监督学习

半监督学习介于监督学习与无监督学习之间,其主要解决的问题是利用少量的标注样本和大量的未标注样本进行训练和分类,从而达到减少标注代价、提高学习能力的目的。

在此学习方式下,输入数据部分被标识,部分没有被标识,这种学习模型可以用来进行预测,但是该模型首先需要学习数据的内在结构以便合理地组织数据进行预测。

应用场景包括分类和回归,算法包括一些对常用监督学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理(graph inference)算法或者拉普拉斯支持向量机(Laplacian SVM)等。


4. 强化学习

强化学习是智能系统从环境到行为映射的学习,以使强化信号函数值最大。由于外部环境提供的信息很少,强化学习系统必须靠自身的经历进行学习。

强化学习的目标是学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境的最大奖赏,使得外部环境对学习系统在某种意义下的评价为最佳。其在机器人控制、无人驾驶、下棋、工业控制等领域获得成功应用。

在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式。在强化学习下,输入数据直接反馈到模型,模型必须对此立刻做出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(temporal difference learning)。


Vol.3机器学习的应用

1.图像识别

图像识别是机器学习最常见的应用之一。它用于识别物体、人物、地点、数字图像等。图像识别和人脸检测的流行用例是,自动好友标记建议:Facebook 为我们提供了自动好友标记建议的功能。每当我们上传与 Facebook 好友的照片时,我们都会自动收到带有姓名的标记建议,这背后的技术是机器学习的人脸检测和识别算法。它基于名为“ Deep Face ”的Facebook项目,负责图片中的人脸识别和人物识别。


2. 语音识别

在使用各种搜索软件时,我们有一个“通过语音搜索”的选项,它属于语音识别,是机器学习的一个流行应用。

语音识别是将语音指令转化为文字的过程,也称为“语音转文字”,或“计算机语音识别”目前,机器学习算法被各种语音识别应用广泛使用。百度助手、还有一些语音输入法正在使用语音识别技术来遵循语音指令。


3.交通预测

如果我们想去一个新的地方,我们会借助手机地图,它会向我们显示最短路线的正确路径并预测交通状况。 它通过两种方式预测交通状况,例如交通是否畅通、缓慢行驶或严重拥堵:车辆的实时位置来自地图应用程序和传感器、过去几天的平均时间同时发生。 每个使用手机地图的人都在帮助这个应用程序变得更好。它从用户那里获取信息并将其发送回其数据库以提高性能。


4.产品推荐

机器学习被京东、淘宝等各种电子商务和娱乐公司广泛用于向用户推荐产品。每当我们在京东上搜索某种产品时,我们就会在同一浏览器上上网时收到同一产品的广告,这是因为机器学习。 淘宝使用各种机器学习算法了解用户的兴趣,并根据客户的兴趣推荐产品。 类似地,当我们使用淘宝购物时,我们会找到一些关于娱乐系列、电影等的推荐,这也是在机器学习的帮助下完成的。


5. 自动驾驶汽车

机器学习最令人兴奋的应用之一是自动驾驶汽车。机器学习在自动驾驶汽车中发挥着重要作用。最受欢迎的汽车制造公司特斯拉正在开发自动驾驶汽车。它使用无监督学习方法训练汽车模型在驾驶时检测人和物体。国内的自动驾驶汽车也很热门,比如上海交通大学在此次疫情发生的时候采用自动驾驶汽车送餐。


6. 垃圾邮件和恶意软件过滤

每当我们收到一封新电子邮件时,它都会被自动过滤为重要邮件、正常邮件和垃圾邮件。我们总是会在收件箱中收到一封带有重要符号的重要邮件,垃圾邮件箱中也会有垃圾邮件,这背后的技术是机器学习。以下是 Gmail 使用的一些垃圾邮件过滤器: 内容过滤器、标题过滤器、常规黑名单过滤器、基于规则的过滤器、权限过滤器。一些机器学习算法,例如多层感知器、决策树和朴素贝叶斯分类器,用于电子邮件垃圾邮件过滤和恶意软件检测。


7. 虚拟个人助理

我们有各种虚拟个人助理,例如Cortana、Siri。顾名思义,它们可以帮助我们使用语音指令查找信息。这些助手可以通过我们的语音指令以各种方式帮助我们,例如播放音乐、打电话给某人、打开电子邮件、安排约会等。 这些虚拟助手使用机器学习算法作为重要组成部分。 这些助手记录我们的语音指令,通过云服务器将其发送,并使用 ML 算法对其进行解码并采取相应的行动。


8. 在线欺诈检测

机器学习通过检测欺诈交易使我们的在线交易安全可靠。每当我们进行一些在线交易时,欺诈交易可能会以多种方式发生,例如假账户、假身份证和在交易过程中偷钱。因此,为了检测到这一点,前馈神经网络通过检查它是真实交易还是欺诈交易来帮助我们。 对于每笔真实的交易,输出都会转换成一些哈希值,这些值成为下一轮的输入。对于每笔真实交易,都有一个特定的模式可以改变欺诈交易,因此,它会检测到它并使我们的在线交易更加安全。


9. 股市交易

机器学习广泛用于股票市场交易。在股票市场中,股票的涨跌风险总是存在的,因此对于这个机器学习的长短期记忆神经网络用于股票市场趋势的预测。


10. 医学诊断

在医学科学中,机器学习用于疾病诊断。有了这个,医疗技术发展得非常快,并且能够建立可以预测大脑中病变的确切位置的 3D 模型。 它的图像识别技术有助于轻松发现脑肿瘤和其他脑相关疾病。


11. 自动语言翻译

如今,如果我们访问一个新地方并且我们不知道该语言,那么这根本不是问题,因为机器学习也通过将文本转换为我们已知的语言来帮助我们。谷歌的GNMT(谷歌神经机器翻译)提供了这个功能,这是一种将文本翻译成我们熟悉的语言的神经机器学习,称为自动翻译。 自动翻译背后的技术是一种序列到序列学习算法,它与图像识别一起使用并将文本从一种语言翻译成另一种语言。



Vol.4

机器学习的发展

我们正处在 AI 取得突破性进展的时代:更为复杂的神经网络伴着有效的语训练数据。新的机器学习算法面临的主要问题更加复杂,机器学习的应用领域从广度向深度发展,这对模型训练和应用都提出了更高的要求。随着人工智能的发展,冯·诺依曼式的有限状态机的理论基础越来越难以应对目前神经网络中层数的要求,这些都对机器学习提出了挑战。未来的机器学习有两大方向突破,一个是算法上的提升,另一个是算力上的提升。究竟未来如何,让我们拭目以待。
机器学习涉及的环节和步骤较多, 用户使用起来有一定难度。MatCloud+平台上也支持机器学习, 使用起来较为方便。 尤其是,用户无需下载和安装任何软件, 仅需一个浏览器就可开展机器学习。以下是简单的操作说明。

  • 首先将数据输入

  • 然后进行特征/标签选择

  • 然后进行测试集比例修改

  • 然后选择不同算法进行计算

  • 分析实验结果,用于预测新的目标


另外本平台还有机器学习模板,不需要详记每一步操作即可实现上面所讲流程。今天我们为简单地介绍了什么是材料数据机器学习的应用及发展,后期还会发布更多关于计算模拟和机器学习的各种干货,如果您想了解更多请持续关注我们。

机器学习的应用及发展的评论 (共 条)

分享到微博请遵守国家法律