r0ysue大数据安全进阶培训班 学习笔记
大数据安全技术:
数据收集:flume + kafka
sqoop(发音:skup,sql-to-hadoop)传统数据库和hadoop之间数据同步工具数据存储HDFS + zookeeper (分布式协作服务)+YARN/mesos(资源管理)
数据计算:mapreduce 离线批量计算,大量的中间文件
spark 离线批量计算的标杆,内存计算 性能提升, OOM 风险
Flink/Blink 流计算
storm 流计算的标杆,多用于实时计算并更新数据库
pig(基于hadoop的数据流系统)