小象学院AI面试经验分享
在大数据处理当中,最核心要解决的其实就是两个问题,大数据存储和大数据计算。在Hadoop生态当中,解决大数据存储,主要依靠就是HDFS,再配合数据库去完成。而MapReduce为海量的数据提供了计算。
1.2.1 HDFS
HDFS是什么
HDFS即Hadoop distributed file system(hadoop分布式文件系统),在Hadoop当中负责分布式存储阶段的任务,它是一个分布式的文件系统,也可以用来存放单个机器的数据,只是大部分用来存储分布式数据。HDFS跟window下的NTFS一样可以通过目录树来查找数据。