1. 安装Linux系统
1.1 选择Linux发行版
首先,根据自己的需求选择一款适合的Linux发行版。常见的Linux发行版有Ubuntu、CentOS、Debian等。在本文中我们选择安装Ubuntu。
1.2 下载Ubuntu镜像
从Ubuntu官网下载最新的Ubuntu镜像文件。选择64位版本,根据自己的硬件配置选择Desktop版或Server版。
下载完成后,可以使用MD5校验和验证镜像文件的完整性。
1.3 制作启动盘
将下载好的Ubuntu镜像文件刻录到U盘或DVD上,制作成启动盘。
在Windows系统中,可以使用Rufus等工具进行制作。在Linux系统中,可以使用dd命令将镜像文件写入U盘。
dd if=ubuntu-20.04.1-desktop-amd64.iso of=/dev/sdx status=progress bs=4M
其中,if参数指定输入文件为镜像文件,of参数指定输出文件为U盘设备,status=progress参数显示制作进度,bs参数指定每次写入的数据块大小。
1.4 安装Ubuntu系统
将制作好的启动盘插入要安装Ubuntu的计算机,并启动计算机。
进入启动菜单,选择从U盘或DVD启动。根据提示,选择安装Ubuntu,按照向导进行安装。
安装过程中,需要设置用户名和密码,以及选择分区和安装选项等。
安装完成后,重新启动计算机,进入Ubuntu系统。
2. 安装Hadoop环境
2.1 安装Java开发环境
Hadoop是基于Java开发的,所以需要先安装Java开发环境。
打开终端,执行以下命令安装OpenJDK:
sudo apt-get update
sudo apt-get install default-jdk
安装完成后,可以使用以下命令验证Java是否成功安装:
java -version
如果成功安装,将会显示Java的版本信息。
2.2 下载Hadoop
在Hadoop官网上下载最新的Hadoop发行版。
可以选择稳定版或最新版,以及二进制版本或源代码版本。
下载完成后,将压缩包解压到指定的目录中:
tar -xzvf hadoop-3.3.0.tar.gz
2.3 配置环境变量
打开终端,编辑~/.bashrc文件:
nano ~/.bashrc
在文件末尾添加以下内容:
export HADOOP_HOME=/path/to/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
其中,/path/to/hadoop为Hadoop的安装目录。
保存并退出文件,然后执行以下命令使配置生效:
source ~/.bashrc
3. 配置Hadoop集群
3.1 修改配置文件
进入Hadoop的安装目录,修改core-site.xml文件:
cd /path/to/hadoop/etc/hadoop
nano core-site.xml
在<configuration>标签中添加以下内容:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
其中,localhost为当前主机的IP地址。
修改hdfs-site.xml文件:
nano hdfs-site.xml
在<configuration>标签中添加以下内容:
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
其中,dfs.replication为数据副本的数量,可以根据实际情况进行调整。
修改mapred-site.xml文件:
nano mapred-site.xml
在<configuration>标签中添加以下内容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
修改yarn-site.xml文件:
nano yarn-site.xml
在<configuration>标签中添加以下内容:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
3.2 格式化HDFS文件系统
执行以下命令格式化HDFS文件系统:
hdfs namenode -format
3.3 启动Hadoop集群
执行以下命令启动Hadoop集群:
start-dfs.sh
start-yarn.sh
3.4 检查Hadoop集群状态
执行以下命令查看Hadoop集群状态:
jps
如果显示类似以下进程,则表示Hadoop集群启动成功:
12532 ResourceManager
12696 NameNode
12849 DataNode
13018 NodeManager
13152 SecondaryNameNode
4. 运行Hadoop示例程序
4.1 准备示例数据
进入HDFS根目录,创建一个输入文件夹,并将示例数据文件拷贝到该文件夹中:
hdfs dfs -mkdir /input
hdfs dfs -put /path/to/data/file /input
其中,/path/to/data/file为示例数据文件的路径。
4.2 运行示例程序
执行以下命令运行示例程序:
hadoop jar hadoop-examples-3.3.0.jar wordcount /input /output
其中,/input为输入文件夹,/output为输出文件夹。
4.3 查看输出结果
执行以下命令查看输出结果:
hdfs dfs -cat /output/part-r-00000
将会显示单词统计结果。
至此,Hadoop环境的安装与配置已完成。