Hadoop入门

基础概念

Hadoop组成

HDFS

Hadoop Distributed File System，简称HDFS，是一个分布式文件系统。

NameNode

存储文件的元数据，如：文件名，文件目录结构，文件属性（生成时间、副本数、文件权限)，以及每个文件的块列表和块所在的DataNode等。

DataNode

在本地文件系统存储文件块数据，以及块数据的校验和。

SecondaryNameNode

每隔一段时间对NameNode元数据备份。

打个比方，NN相当于老板，DN相当于员工，2NN相当于秘书

YARN

Yet Another Resource Negotiator简称YARN ，另一种资源协调者，是Hadoop的资源管理器。

MapReduce

MapReduce将计算过程分为两个阶段：Map和Reduce

Map阶段并行处理输入数据

Reduce阶段对Map结果进行汇总

三者关系

Hadoop运行环境搭建

模板虚拟机

安装模板虚拟机，系统CentOS-7.5-x86-1804，IP地址192.168.10.100、主机名称hadoop100

设置静态IP地址：

vim /etc/sysconfig/network-scripts/ifcfg-ens33

// 修改
OOTPROTO="static"
// 新增
IPADDR=192.168.10.100
GATEWAY=192.168.10.2
DNS1=192.168.10.2

修改主机名称：

vim /etc/hostname

修改映射hosts文件：

vim /etc/hosts

添加如下内容

192.168.10.100 hadoop100
192.168.10.101 hadoop101
192.168.10.102 hadoop102
192.168.10.103 hadoop103
192.168.10.104 hadoop104
192.168.10.105 hadoop105
192.168.10.106 hadoop106
192.168.10.107 hadoop107
192.168.10.108 hadoop108

windows系统也可以修改一下hosts，方便后续访问虚拟机

安装epel-release：

yum install -y epel-release

如果Linux安装的是最小系统版，还需要安装如下工具：

yum install -y net-tools

yum install -y vim

关闭防火墙，关闭防火墙开机自启：

systemctl stop firewalld
systemctl disable firewalld.service

配置用户kaze具有root权限，方便后期加sudo执行root权限的命令：

如果Linux安装的是最小系统版则应该先创建一个用户

useradd kaze
passwd 423414

修改配置文件

vim /etc/sudoers

在%wheel这行下面添加一行

kaze   ALL=(ALL)     NOPASSWD:ALL

在/opt目录下创建文件夹，并修改所属主和所属组：

mkdir /opt/module
mkdir /opt/software
chown kaze:kaze /opt/module 
chown kaze:kaze /opt/software

卸载系统自带的JDK：

如果Linux安装的是最小系统版则不需要执行这一步

rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps

重启系统：

reboot

克隆虚拟机

利用模板机hadoop100，克隆三台虚拟机：hadoop102 hadoop103 hadoop104

修改克隆机IP和主机名称后重启即可

保证Linux系统ifcfg-ens33文件中IP地址、VMware虚拟网络编辑器地址和Windows系统VM8网络IP地址位于同一网段下

安装JDK

安装JDK前，一定确保提前删除了系统自带的JDK

将jdk-8u212-linux-x64.tar.gz放到/opt/software目录下

解压jdk到/opt/module下

tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/

配置JDK环境变量：

sudo vim /etc/profile.d/my_env.sh

添加如下内容

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

让新的环境变量PATH生效

source /etc/profile

安装Hadoop

将hadoop-3.1.3.tar.gz放到/opt/software目录下

解压hadoop到/opt/module下

tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/

配置hadoop环境变量：

sudo vim /etc/profile.d/my_env.sh

添加如下内容

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

让新的环境变量PATH生效

source /etc/profile

Hadoop目录结构

bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本

etc目录：Hadoop的配置文件目录，存放Hadoop的配置文件

lib目录：存放Hadoop的本地库（对数据进行压缩解压缩功能）

sbin目录：存放启动或停止Hadoop相关服务的脚本

share目录：存放Hadoop的依赖jar包、文档、和官方案例

Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式。

本地模式：单机运行，只是用来演示一下官方案例。生产环境不用。

**伪分布式模式：**也是单机运行，但是具备Hadoop集群的所有功能，一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试，生产环境不用。

**完全分布式模式：**多台服务器组成分布式环境。生产环境使用。

完全分布式运行模式

集群分发脚本xsync

功能：循环复制文件到所有节点的相同目录下

用法：xsync 文件名称

脚本实现：

在/home/kaze/bin目录下创建xsync

cd /home/kaze
mkdir bin
cd bin
vim xsync

脚本内容

#!/bin/bash

#1. 判断参数个数
if [ $# -lt 1 ]
then
    echo Not Enough Arguement!
    exit;
fi

#2. 遍历集群所有机器
for host in hadoop102 hadoop103 hadoop104
do
    echo ====================  $host  ====================
    #3. 遍历所有目录，挨个发送

    for file in $@
    do
        #4. 判断文件是否存在
        if [ -e $file ]
            then
                #5. 获取父目录
                pdir=$(cd -P $(dirname $file); pwd)

                #6. 获取当前文件的名称
                fname=$(basename $file)
                ssh $host "mkdir -p $pdir"
                rsync -av $pdir/$fname $host:$pdir
            else
                echo $file does not exists!
        fi
    done
done

修改权限

chmod 777 xsync

SSH无密登录配置

ssh登录：

语法：ssh 另一台电脑的IP地址

免密登录：

生成公钥和私钥

ssh-keygen -t rsa

将公钥拷贝到要免密登录的目标机器上

ssh-copy-id 目标机器

集群配置

集群部署规划

NameNode和SecondaryNameNode不要安装在同一台服务器。ResourceManager很消耗内存，不要和NameNode、SecondaryNameNode配置在同一台机器上。

	hadoop102	hadoop103	hadoop104
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	NodeManager、ResourceManager	NodeManager

配置文件

Hadoop配置文件分两类：默认配置文件和自定义配置文件

默认配置文件：core-default.xml、hdfs-default.xml、yarn-default.xml、mapred-default.xml

自定义配置文件：core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml

四个自定义配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上

配置集群

配置core-site.xml

<!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.1.3/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户 -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>kaze</value>
    </property>

配置hdfs-site.xml

<!-- nn web端访问地址-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
    <!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>

配置yarn-site.xml

<!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>

    <!-- 开启日志聚集功能 -->
    <property>
    	<name>yarn.log-aggregation-enable</name>
    	<value>true</value>
    </property>
    <!-- 设置日志聚集服务器地址 -->
    <property>  
    	<name>yarn.log.server.url</name>  
    	<value>http://hadoop102:19888/jobhistory/logs</value>
    </property>
    <!-- 设置日志保留时间为7天 -->
    <property>
    	<name>yarn.log-aggregation.retain-seconds</name>
    	<value>604800</value>
    </property>

配置mapred-site.xml

<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <!-- 历史服务器端地址 -->
    <property>
    	<name>mapreduce.jobhistory.address</name>
    	<value>hadoop102:10020</value>
    </property>
    <!-- 历史服务器web端地址 -->
    <property>
    	<name>mapreduce.jobhistory.webapp.address</name>
    	<value>hadoop102:19888</value>
    </property>

配置workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

hadoop102
hadoop103
hadoop104

在集群上分发配置好的Hadoop配置文件

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

群起集群

启动集群

如果集群是第一次启动，需要在hadoop102节点格式化NameNode

注意：格式化NameNode，会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到已往数据。如果集群在运行过程中报错，需要重新格式化NameNode的话，一定要先停止namenode和datanode进程，并且要删除所有机器的data和logs目录，然后再进行格式化。

hdfs namenode -format

启动HDFS

sbin/start-dfs.sh

在配置了ResourceManager的节点（hadoop103）启动YARN

sbin/start-yarn.sh

在配置了historyserver的节点（hadoop102）启动历史服务器

mapred --daemon start historyserver

Web端查看HDFS的NameNode

http://hadoop102:9870

Web端查看YARN的ResourceManager

http://hadoop103:8088

Hadoop集群常用脚本

Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh

vim /home/kaze/bin/myhadoop.sh

#!/bin/bash

if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi

case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/bin/mapred --daemon stop historyserver"
        echo " --------------- 关闭 yarn ---------------"
        ssh hadoop103 "/opt/module/hadoop-3.1.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh hadoop102 "/opt/module/hadoop-3.1.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

chmod 777 myhadoop.sh

查看三台服务器Java进程脚本：jpsall

vim /home/kaze/bin/jpsall

#!/bin/bash

for host in hadoop102 hadoop103 hadoop104
do
        echo =============== $host ===============
        ssh $host jps 
done

chmod 777 jpsall

最后别忘了分发一下自定义的脚本

xsync /home/kaze/bin/

Hadoop常用端口号

端口名称	Hadoop2.x	Hadoop3.x
NameNode内部通信端口	8020/9000	8020/9000/9820
NameNode HTTP UI	50070	9870
MapReduce查看执行任务端口	8088	8088
历史服务器通信端口	19888	19888

Menu

Share

Hadoop入门

基础概念

Hadoop组成

HDFS

NameNode

DataNode

SecondaryNameNode

YARN

MapReduce

三者关系

Hadoop运行环境搭建

模板虚拟机

克隆虚拟机

安装JDK

安装Hadoop

Hadoop目录结构

Hadoop运行模式

完全分布式运行模式

集群分发脚本xsync

SSH无密登录配置

集群配置

集群部署规划

配置文件

配置集群

群起集群

Hadoop集群常用脚本

Hadoop常用端口号

Comment

web前端基础

SpringCloud

2048实战

MOOC C++（一）

Hadoop-MapReduce

Spring Web 全栈（二）

得物实战

Vue入门

MySQL入门

Redis