Linux系统上安装Hadoop环境讲解

1. 安装Linux系统

1.1 选择Linux发行版

首先,根据自己的需求选择一款适合的Linux发行版。常见的Linux发行版有Ubuntu、CentOS、Debian等。在本文中我们选择安装Ubuntu。

1.2 下载Ubuntu镜像

从Ubuntu官网下载最新的Ubuntu镜像文件。选择64位版本,根据自己的硬件配置选择Desktop版或Server版。

下载完成后,可以使用MD5校验和验证镜像文件的完整性。

1.3 制作启动盘

将下载好的Ubuntu镜像文件刻录到U盘或DVD上,制作成启动盘。

在Windows系统中,可以使用Rufus等工具进行制作。在Linux系统中,可以使用dd命令将镜像文件写入U盘。

dd if=ubuntu-20.04.1-desktop-amd64.iso of=/dev/sdx status=progress bs=4M

其中,if参数指定输入文件为镜像文件,of参数指定输出文件为U盘设备,status=progress参数显示制作进度,bs参数指定每次写入的数据块大小。

1.4 安装Ubuntu系统

将制作好的启动盘插入要安装Ubuntu的计算机,并启动计算机。

进入启动菜单,选择从U盘或DVD启动。根据提示,选择安装Ubuntu,按照向导进行安装。

安装过程中,需要设置用户名和密码,以及选择分区和安装选项等。

安装完成后,重新启动计算机,进入Ubuntu系统。

2. 安装Hadoop环境

2.1 安装Java开发环境

Hadoop是基于Java开发的,所以需要先安装Java开发环境。

打开终端,执行以下命令安装OpenJDK:

sudo apt-get update

sudo apt-get install default-jdk

安装完成后,可以使用以下命令验证Java是否成功安装:

java -version

如果成功安装,将会显示Java的版本信息。

2.2 下载Hadoop

在Hadoop官网上下载最新的Hadoop发行版。

可以选择稳定版或最新版,以及二进制版本或源代码版本。

下载完成后,将压缩包解压到指定的目录中:

tar -xzvf hadoop-3.3.0.tar.gz

2.3 配置环境变量

打开终端,编辑~/.bashrc文件:

nano ~/.bashrc

在文件末尾添加以下内容:

export HADOOP_HOME=/path/to/hadoop

export PATH=$HADOOP_HOME/bin:$PATH

其中,/path/to/hadoop为Hadoop的安装目录。

保存并退出文件,然后执行以下命令使配置生效:

source ~/.bashrc

3. 配置Hadoop集群

3.1 修改配置文件

进入Hadoop的安装目录,修改core-site.xml文件:

cd /path/to/hadoop/etc/hadoop

nano core-site.xml

在<configuration>标签中添加以下内容:

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost:9000</value>

</property>

其中,localhost为当前主机的IP地址。

修改hdfs-site.xml文件:

nano hdfs-site.xml

在<configuration>标签中添加以下内容:

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

其中,dfs.replication为数据副本的数量,可以根据实际情况进行调整。

修改mapred-site.xml文件:

nano mapred-site.xml

在<configuration>标签中添加以下内容:

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

修改yarn-site.xml文件:

nano yarn-site.xml

在<configuration>标签中添加以下内容:

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

3.2 格式化HDFS文件系统

执行以下命令格式化HDFS文件系统:

hdfs namenode -format

3.3 启动Hadoop集群

执行以下命令启动Hadoop集群:

start-dfs.sh

start-yarn.sh

3.4 检查Hadoop集群状态

执行以下命令查看Hadoop集群状态:

jps

如果显示类似以下进程,则表示Hadoop集群启动成功:

12532 ResourceManager

12696 NameNode

12849 DataNode

13018 NodeManager

13152 SecondaryNameNode

4. 运行Hadoop示例程序

4.1 准备示例数据

进入HDFS根目录,创建一个输入文件夹,并将示例数据文件拷贝到该文件夹中:

hdfs dfs -mkdir /input

hdfs dfs -put /path/to/data/file /input

其中,/path/to/data/file为示例数据文件的路径。

4.2 运行示例程序

执行以下命令运行示例程序:

hadoop jar hadoop-examples-3.3.0.jar wordcount /input /output

其中,/input为输入文件夹,/output为输出文件夹。

4.3 查看输出结果

执行以下命令查看输出结果:

hdfs dfs -cat /output/part-r-00000

将会显示单词统计结果。

至此,Hadoop环境的安装与配置已完成。

操作系统标签