Hadoop安装教程(Ubuntu)
1. 配置 java 环境
Oracle 官网下载 jdk-8u221-linux-x64.gz 放到某个目录,此处放在 /usr/lib/java 目录
创建 java 的目标路径文件夹:sudo mkdir /usr/lib/java
解压并命名 java 至创建的目录:sudo tar -zxf jdk-8u221-linux-x64.gz /usr/lib/java
配置环境变量:sudo vim ~/.bashrc
添加以下代码:
修改完成后保存关闭,并输入以下命令使环境变量生效:source /etc/environment
配置所有用户的环境变量:sudo vim /etc/profile
添加以下代码:
同样,让环境变量生效:source /etc/profile
查询配置是否成功:java -version
2. SSH 安装和配置
密码输入空,记录在 id_rsa.pub 文件
3. Hadoop 下载安装
Hadoop 官网下载 hadoop-2.7.7.tar.gz 到 /usr/local/hadoop 目录
同样创建目标文件夹
解压后命名放入该目录
验证是否成功安装:
hadoop 单击配置(非分布式)
在此我们选择运行 grep 例子,将 input 文件夹中的所有文件作为输入,筛选当中符合正则表达式`dfs[a-z.]+`的单词并统计出现的次数,最后输出结果到 output 文件夹中。
注意,Hadoop 默认不会覆盖结果文件,因此再次运行上面实例会提示出错,需要先将 output 文件夹删除。
hadoop 伪分布式配置
修改配置文件:sudo vim ./etc/hadoop/core-site.xml
sudo vim ./etc/hadoop/hdfs-site.xml
修改 java 环境变量:sudo vi ./etc/hadoop/hadoop-env.sh
执行 NameNode 的格式化:sudo ./bin/hdfs namenode -format
开启 NameNode 和 DataNode 守护进程:sudo ./sbin/start-dfs.sh
启动完成后可以通过命令 jps 来判断是否成功启动
关闭命令:sbin/stop-dfs.sh
可以打开 http://localhost:50070/ 查看 NameNode 和 DataNode 信息,还可以在线查看 HDFS 中的文件。
4. 问题解决
开启守护进程时一直出现密码无效的情况:root@localhost's password:localhost:permission denied,please try again
解决方法:
1. 安装 open ssh:sudo apt-get install openssh-server
2. 修改 root 密码:sudo passwd root
3. 修改配置文件,允许 root 用户通过 ssh 登陆:sudo vi /etc/ssh/sshd_config
找到:#PermitRootLogin prohibit-password,在其下面添加 PermitRootLogin yes
4.重启服务:sudo service ssh restart
给 hadoop 配置环境变量:sudo vim /etc/bash.bashrc
在末尾添加:
然后执行 source 命令:source /etc/bash.bashrc
最后运行 hadoop version 即可查看版本。