大数据之Spark优化

你所认识的大数据是抖音,快手,淘宝等生活方面都可以推荐符合你心意的视频和商品,让你 感到倍加神奇,忍不住来了解大数据到底是为什么会这样???

在互联网技术发展到至今阶段,大量日常,工作等事务产生的数据都已经信息化,人类产生的数据量相比以前有了爆炸式的增长,以前传统的数据处理技术已经无法胜任,需求催生技术,一套用来处理海量数据的技术应运而生,这就是发数据技术。

大数据是海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统,是一个庞大的框架系统
本节课讲的知识点就是大数据里的“Spark优化”
一、Spark介绍
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架

Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。

二、那些高科技用到了Spark?
人工智能的核心就起大数据,通过大数据分析来决定执行那一步,Spark被用在了大数据领域,因为其能够处理大量的数据,依靠磁盘并能进行了复杂的运算,这些的特点,正是为人工智能提供了核心大脑。

三、Spark优化有哪些?
Spark资源优化
2. Spark并行度优化
3. Spark代码优化
4. 内存调优
5. Sparkshuffle优化
6. 堆外内存优化
7. 解决数据倾斜

对于大数据的未来,会渗透到行业的各个角落,任何地方都脱离不开大数据的范畴。人工智能、云计算、云医疗等,都是现在炙手可热的行业标向,这些完全脱离不了大数据的支撑,由此我们就应该清晰的认识到大数据的重要性。