欢迎光临散文网 会员登陆 & 注册

CS漫谈丨为什么说机器学习很重要?看完就明白了!

2020-12-19 23:55 作者:苏世考研  | 我要投稿


苏世计算机考研,程序猿专属的学习分享社区



【声明:本文为原创文章,未经同意,严禁转载和抄袭,违者将追究其法律责任】


/ 写在前面的话 /


CS漫谈,聊聊和计算机有关的那些事。


公主号:苏世学社考研  苏世计算机考研

机器学习是一种自动化分析模型构建的数据分析方法。它是人工智能的一个分支,其基础是系统可以从数据中学习,识别模式并以最少的人工干预做出决策。


小苏在之前文章中有介绍过人工智能和机器学习相关的内容,还没看过的同学可以先看哦。


CS漫谈丨计算机最热方向之一——人工智能,你真的了解吗?

CS漫谈丨一文帮你分清人工智能、机器学习和深度学习


小苏今天将重点围绕“机器学习”的发展、应用、常用的机器学习方法、算法展开介绍。让你看完对机器学习有一个较为全面的了解。


机器学习的演变


由于采用了新的计算技术,因此今天的机器学习不像过去的机器学习。它源于模式识别和理论,即计算机无需进行编程即可执行特定任务即可学习。对人工智能感兴趣的研究人员希望了解计算机是否可以从数据中学习。机器学习的迭代方面很重要,因为当模型暴露于新数据时,它们能够独立适应。他们从先前的计算中学习,以得出可靠,可重复的决策和结果。


这不是一门新科学,而是一门崭新的动力。尽管许多机器学习算法已经存在很长时间了,但是最近又出现了一种能够将复杂的数学计算自动应用到大数据中的功能,而且越来越快。在我们生活中很多方面都有机器学习的身影,大家熟知的有:大肆宣传的自动驾驶Google汽车、百度汽车等;机器学习与语言规则相结合的NLP;诈骗短信、诈骗电话的识别与拦截。


为什么说机器学习很重要?


不断增长的数据数量和可用数据的种类,还有更便宜,更强大的计算处理能力的计算机的出现以及超大数据存储容量,使得机器学习里面的数据挖掘、贝叶斯分析近些年来愈来愈受欢迎。所有这些都意味着人们可以快速自动地生成、可以分析更多更复杂的数据并提供更准确的结果的模型,甚至是非常大规模的模型。通过建立精确的数学模型,我们可以更好地趋利避害、规避风险。


现如今机器学习运用在哪些领域?


现在很多需要处理大数据的行业已经认识到机器学习技术的价值。通过实时地从这些数据中分析收集特征信息,企业可以更高效地产出或获得超越竞争对手的优势。


金融服务业:金融行业中的银行、券商、投资机构和其他企业使用机器学习技术有两个主要目的:识别数据中的重要特征和防止诈骗。这些基于机器学习的独特信息可以帮助识别投资机会,或帮助投资者知道何时进行交易获利最大;数据挖掘还可以识别具有高风险个人资料的客户,或使用网络监视来确定欺诈的警告信号。


政府:政府机构例如公共安全和公共事业部门可以利用机器学习帮助检测欺诈并最大程度地减少身份盗用,更高效地人口管理。


卫生保健:机器学习俨然是医疗保健行业快速发展的趋势,由于可穿戴设备的出现,可以使用大数据实时评估患者的健康状况,还可以帮助医学专家分析病人的数据,以促进疾病的快速精确诊断。


零售:电商网站根据以前的购买记录使用机器学习来推荐用户喜欢的商品,对其进行分析并将其用于个性化购物体验,实施营销活动,价格优化,改进商品供应计划以及获得源源不断的客户。   


新能源:可以利用机器学习分析地下的矿物成分、以及数据中心能耗优化和新能源+储能调度优化,简化石油分配,使其更高效,更具成本效益。这个行业的机器学习用例数量众多,并且还在不断增加。


交通运输:分析数据以识别模式是运输行业的关键,这取决于使路线更高效并预测潜在问题以提高盈利能力。机器学习的数据分析和建模方面是交付公司,公共交通和其他运输组织的重要工具。地图匹配、路线规划、ETA、流量估算和预测、流量调度、动态定价等等都有机器学习的身影。


现在比较常用的机器学习方法


现在使用最广泛的的机器学习方法应当是是监督学习和无监督学习,当然了还是有其他机器学习方法。


监督学习:使用标记样本的训练算法,比如对应输入的输出是早已被设计好的。一件设备可以得到一些具有标记为“ F”(失败)或“ R”(运行)的数据点。学习算法接收一组输入以及相应的正确输出,并且该算法通过将其实际输出与正确输出进行比较来学习以发现错误。然后,它会相应地自动修改模型。通过分类,回归,预测和梯度增强等方法,监督学习使用模式来预测其他未标记数据上的标记值。一般的,使用历史数据预测可能发生的未来事件的项目中,通常使用监督学习。举个例子预测何时信用卡交易可能是欺诈的,或者哪个保险客户可能提出索赔,这时候机器学习就派上用场了。


无监督学习:使用的是没有历史标签的数据,我们不会人为地告知系统哪些是正确结果,要求该算法自己主动地找出哪些是正确结果。无监督学习在事务数据上效果很好。例如,它可以识别具有相似属性并且在在营销活动中经常未受到区别对待的客户,然后对他们提供更精细的服务。比较流行的无监督学习技术包括自组织映射,最近邻映射,k-means聚类法和奇异值分解。这些算法还用于自然语言处理,识别并找出数据异常值。


半监督学习:半监督学习的程序和监督学习基本相同。但是,它同时使用标记和未标记两类数据进行训练,通常是少量标记数据和大量未标记数据(因为未标记数据的耗费成本较低,并且获取所需的工作量也较少)。这种类型的学习可以与分类,回归和预测之类的方法一起使用。例如人脸识别。


强化学习:通常用于机器人技术,游戏和导航。通过强化学习,该算法可以通过反复试验发现哪些动作产生了最大的回报。这种类型的学习具有三个主要组成部分:代理(学习者或决策者),环境(代理与之交互的所有内容)和动作(代理可以做的事情)。代理的目标是选择在给定的时间内最大化预期回报的操作。遵循良好的政策,代理将更快地达到目标。因此,强化学习的目标是学习最佳策略。


数据挖掘,机器学习和深度学习之间的区别


尽管所有这些方法都有相同的目标-提取可用于决策的见解,模式和关系-但它们具有不同的方法和能力。


数据挖掘:数据挖掘可以被视为从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。它可能涉及传统的统计方法和机器学习,还有文本分析,时间序列分析等。当然数据挖掘还包括数据存储和数据处理的研究和实践。


机器学习:就像统计模型的目标是理解数据的分布结构,使得该理论模型更加适用于数据。因此,对于统计模型,该模型背后必然存在一种理论,而且该理论在数学上得到了证明,但这要求数据也必须满足某些强有力的假设。然而机器学习是基于使用计算机程序来寻找数据之间的特征关系的,即使我们对数据的结构特点没有任何理论依据。机器学习模型的测试是对新数据的正确行的验证,而不是证明无效假设的理论测试,这是机器学习和统计最明显的差异性。由于机器学习通常使用迭代方法从数据中学习,因此学习可以实现自动化,也就是说我们可以通过写脚本来实现这一过程,但是统计学很难用脚本来实现。


深度学习:将算力的进步与特殊类型的神经网络相结合,以学习大量数据中的复杂模式。深度学习技术目前是常用于图像识别、音频识别等。当然还有更高级更难的,比如自动语言翻译,指挥医疗诊断等。


机器学习的实现算法


机器学习算法包括:神经网络、决策树、随机森林、关联和序列发现、梯度提升和bagging、支持向量机、最近邻映射、k-means聚类、自组织映射、本地搜索优化技术(遗传算法)、期望最大化、多元自适应回归样条、贝叶斯网络、内核密度估计、主成分分析PCA、奇异值分解、高斯混合模型、顺序覆盖算法等。


小苏今天只做简要科普,感兴趣的同学可以继续从书本、视频等方面去深入了解,还有什么想了解的可以从评论区告诉我哦~下次安排!


苏世学社旗下品牌,专注于计算机考研

计算机考研一手资讯,原创高质量干货

深度的学习分享丨咨询前辈丨个性化指导



CS漫谈丨为什么说机器学习很重要?看完就明白了!的评论 (共 条)

分享到微博请遵守国家法律