欢迎光临散文网 会员登陆 & 注册

大数据之Spark优化

2021-04-27 11:23 作者:编程大战  | 我要投稿


 

      你所认识的大数据是抖音,快手,淘宝等生活方面都可以推荐符合你心意的视频和商品,让你 感到倍加神奇,忍不住来了解大数据到底是为什么会这样???

      在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。

     大数据是海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统,是一个庞大的框架系统

    本节课讲的知识点就是大数据里的Spark优化 

一、Spark介绍

      Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架

      Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

       Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。

二、那些高科技用到了Spark?

      人工智能的核心就起大数据,通过大数据分析来决定执行那一步,Spark被用在了大数据领域,因为其能够处理大量的数据,依靠磁盘并能进行了复杂的运算,这些的特点,正是为人工智能提供了核心大脑。

三、Spark优化有哪些?

  1. Spark资源优化

2. Spark并行度优化

3. Spark代码优化

4. 内存调优

5. Sparkshuffle优化

6. 堆外内存优化

7. 解决数据倾斜

      对于大数据的未来,会渗透到行业的各个角落,任何地方都脱离不开大数据的范畴。人工智能、云计算、云医疗等,都是现在炙手可热的行业标向,这些完全脱离不了大数据的支撑,由此我们就应该清晰的认识到大数据的重要性。

大数据之Spark优化的评论 (共 条)

分享到微博请遵守国家法律