大数据之Spark优化

2021-04-27 11:23 作者:编程大战 0人读过 | 我要投稿

你所认识的大数据是抖音，快手，淘宝等生活方面都可以推荐符合你心意的视频和商品，让你感到倍加神奇，忍不住来了解大数据到底是为什么会这样？？？

在互联网技术发展到至今阶段，大量日常，工作等事务产生的数据都已经信息化，人类产生的数据量相比以前有了爆炸式的增长，以前传统的数据处理技术已经无法胜任，需求催生技术，一套用来处理海量数据的技术应运而生，这就是发数据技术。

大数据是海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统，是一个庞大的框架系统

本节课讲的知识点就是大数据里的“Spark优化”

一、Spark介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架

Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。现在形成一个高速发展应用广泛的生态系统。

人工智能的核心就起大数据，通过大数据分析来决定执行那一步，Spark被用在了大数据领域，因为其能够处理大量的数据，依靠磁盘并能进行了复杂的运算，这些的特点，正是为人工智能提供了核心大脑。

2. Spark并行度优化

3. Spark代码优化

4. 内存调优

5. Sparkshuffle优化

6. 堆外内存优化

7. 解决数据倾斜

对于大数据的未来，会渗透到行业的各个角落，任何地方都脱离不开大数据的范畴。人工智能、云计算、云医疗等，都是现在炙手可热的行业标向，这些完全脱离不了大数据的支撑，由此我们就应该清晰的认识到大数据的重要性。

标签：