网易云微专业大数据开发工程师
大数据计算原理
在待处理的数据存储在服务器集群的所有服务器上,主要使用HDFS系统,将文件分成很多块(Block),以块为单位存储在集群的服务器上
大数据引擎根据集群里的不同服务器的计算能力,在每台服务器上启动若干分布式任务执行进程,这些进程会等待给它们分配执行任务
使用大数据计算框架支持的编程模型进行编程,比如Hadoop的MapReduce编程模型,或Spark的RDD编程模型,编写应用程序,例如python或java程序
用Haddop或Spark的启动命令执行这个应用程序,执行引擎会解析程序要处理的数据输入路径,根据输入数据量的大小,将数据分片,每个片分配给一个任务执行进程去处理
任务执行进收到任务后检查是否有任务对应的程序包,没有就去下载,下载后加载程序
加载程序后,任务根据分配的数据片的文件地址和数据在文件内的偏移量读取数据,并把数据输入给应用程序相应的方法去执行,从而实现分布式服务器集群中并行处理的计算目标