Apache Spark是一个在集群上运行的统一计算引擎以及一组并行数据处理软件库。
Spark是目前最流行的开源大数据处理引擎。它支持多种编程语言(eg: Scala, Java, Python, R)提供支持SQL, 流处理, 机器学习等多种任务的软件库。
Spark的组件架构图