实战CentOS系统部署Hadoop集群服务

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序;HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

前言

篮球世界杯在哪买球 1
HDFS架构图

  前面只是大概介绍了一下Hadoop,现在就开始搭建集群了。我们下尝试一下搭建一个最简单的集群。之后为什么要这样搭建会慢慢的分享,先要看一下效果吧!

一、Hadoop框架简介

一、Hadoop的三种运行模式(启动模式)

 

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

1.1、单机模式(独立模式)(Local或Standalone  Mode)

  -默认情况下,Hadoop即处于该模式,用于开发和调式。

  -不对配置文件进行修改。
  -使用本地文件系统,而不是分布式文件系统。
  -Hadoop不会启动NameNode、DataNode、JobTracker、TaskTracker等守护进程,Map()和Reduce()任务作为同一个进程的不同部分来执行的。
  -用于对MapReduce程序的逻辑进行调试,确保程序的正确。

 

HDFS(Hadoop Distribution File System),称为Hadoop分布式文件系统,主要特点:

1.2、伪分布式模式(Pseudo-Distrubuted Mode)

  -Hadoop的守护进程运行在本机机器,模拟一个小规模的集群 

  -在一台主机模拟多主机。
  -Hadoop启动NameNode、DataNode、JobTracker、TaskTracker这些守护进程都在同一台机器上运行,是相互独立的Java进程。
  -在这种模式下,Hadoop使用的是分布式文件系统,各个作业也是由JobTraker服务,来管理的独立进程。在单机模式之上增加了代码调试功能,允许检查内存使用情况,HDFS输入输出,

    以及其他的守护进程交互。类似于完全分布式模式,因此,这种模式常用来开发测试Hadoop程序的执行是否正确。
  -修改3个配置文件:core-site.xml(Hadoop集群的特性,作用于全部进程及客户端)、hdfs-site.xml(配置HDFS集群的工作属性)、mapred-site.xml(配置MapReduce集群的属性)
  -格式化文件系统

 

  • HDFS最小以64MB的数据块存储文件,相比其他文件系统中的4KB~32KB分块大得多。
  • HDFS在时延的基础上对吞吐量进行了优化,它能够高效处理了对大文件的读请求流,但不擅长对众多小文件的定位请求
  • HDFS对普通的“一次写入,多次读取”的工作负载进行了优化。
  • 每个存储节点运行着一个称为DataNode的进程,它管理着相应主机上的所有数据块。这些存储节点都由一个称为NameNode的主进程来协调,该进程运行于一台独立进程上。
  • 与磁盘阵列中设置物理冗余来处理磁盘故障或类似策略不同,HDFS使用副本来处理故障,每个由文件组成的数据块存储在集群众的多个节点,HDFS的NameNode不断监视各个DataNode发来的报告。

1.3、全分布式集群模式(Full-Distributed Mode)

  -Hadoop的守护进程运行在一个集群上 

  -Hadoop的守护进程运行在由多台主机搭建的集群上,是真正的生产环境。
  -在所有的主机上安装JDK和Hadoop,组成相互连通的网络。
  -在主机间设置SSH免密码登录,把各从节点生成的公钥添加到主节点的信任列表。
  -修改3个配置文件:core-site.xml、hdfs-site.xml、mapred-site.xml,指定NameNode和JobTraker的位置和端口,设置文件的副本等参数
  -格式化文件系统

1、MapReduce工作原理

二、搭建伪分布式集群的前提条件

环境:在Ubuntu17.04

    jdk1.8.0_131

    hadoop 2.8.1

 

客户端,提交MapReduce作业;jobtracker,协调作业的运行,jobtracker是一个java应用程序,它的主类是JobTracker;tasktracker。运行作业划分后的任务,tasktracker是一个java应用程序,TaskTracker是主类。

2.1、能够正常运行的Ubuntu操作系统

  在Ubuntu下,软件安装到/opt下,当前正在使用的用户,对于opt目录需要有读写权限: 

  1)将opt的权限给为777(漏洞文件),不推荐在生产环境中使用。但是可以在学习和调试环境中使用。     

  2)sudo

    在启动Hadoop的各个守护进程的时候,需要使用sudo。
    在管理Hadoop的时候,实际上由不同的用户启动不同集群的守护进程。
    统一使用当前的用户管理所有集群。

  3)该目录的所有者设置为当前用户

 

2、Hadoop优点

2.2、安装JDK,并配置环境变量

  1)将jdk安装包放在家目录下

  2)解压到opt目录下

    sudo tar zxvf jdk-8u131-linux-x64.tar.gz -C /opt

    此时在/opt目录下:会有一个jdk1.8.0_131

  3)创建软链接

    sudo ln -snf /opt/jdk1.8.0_131 /opt/jdk

    篮球世界杯在哪买球 2

    注意:创建软连接的目的是为了,我们在做项目的时候,可能会用到不同的jdk版本,这是要换软件的话,只需要修改软链接就可以了。而不用修改配置文件。

  4)配置环境变量   

    局部环境变量:~/.bashrc
    全局环境变量:/etc/profile
    export JAVA_HOME=/opt/jdk
    export JRE_HOME=$JAVA_HOME/jre
    export CLASSPATH=.:$JAVA_HOME/lib
    export PATH=$PATH:$JAVA_HOME/bin

    source 相关文件(更新配置文件)

  5)查看是否安装成功

   java、javac、java -version

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

三、搭建伪分布式集群

 

高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

3.1、安装hadoop

  1)解压hadoop安装包到opt目录下

    sudo  tar zxvf hadoop-2.8.1.tar.gz -C /opt

  2)创建软链接

    ln -snf /opt/hadoop-2.8.1   /opt/hadoop  

    篮球世界杯在哪买球 3

  3)配置环境变量  

    在/etc/profile文件中加入以下内容:
    export HADOOP_HOME=/opt/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    source /etc/profile

  4)使用hadoop version命令测试是否配置成功

    篮球世界杯在哪买球 4

 

高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

3.2、配置hadoop

  配置文件存放在/opt/hadoop/etc/hadoop中有n多个文件,暂时我们只需要修改的只有5个

  1)hadoop-env.sh

    大约在25行左右   

  export JAVA_HOME=${JAVA_HOME}改成export JAVA_HOME=/opt/jdk

    篮球世界杯在哪买球 5

    注意:在配置文件中有提示我们怎么设置,我们一般不删除,二回选择注释它的提示。

  2)core-site.xml 

      <configuration>
                <property>
                    <name>fs.defaultFS</name>
                    <value>hdfs://1.0.0.5:9000</value>   
                </property>
            </configuration>

    篮球世界杯在哪买球 6

  分析:1.0.0.5是你主节点所在主机的ip,而9000为端口

  3)hdfs-site.xml

            <configuration>
                <property>
                    <name>dfs.nameservices</name>
                    <value>hadoop-cluster</value>
                </property>
                <property>
                    <name>dfs.namenode.name.dir</name>
                    <value>file:///data/hadoop/hdfs/nn</value>
                </property>
                <property>
                    <name>dfs.namenode.ch
                    eckpoint.dir</name>
                    <value>file:///data/hadoop/hdfs/snn</value>
                </property>
                <property>
                    <name>dfs.namenode.checkpoint.edits.dir</name>
                    <value>file:///data/hadoop/hdfs/snn</value>
                </property>
                <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>file:///data/hadoop/hdfs/dn</value>
                </property>
            </configuration>

    篮球世界杯在哪买球 7

  4)mapred-site.xml

    在hadoop的相关目录中没有此文件,但是有一个mapred-site.xml.template文件,将该文件复制一份为mapred-site.xml

    cp mapred-site.xml.template mapred-site.xml

            <configuration>
                <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                </property>
            </configuration>

    篮球世界杯在哪买球 8

  5)yarn-site.xml

            <configuration>
                <!-- 指定ResourceManager的地址-->
                <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>1.0.0.5</value>
                </property>
                <!-- 指定reducer获取数据的方式-->
                <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
                </property>
                <property>
                    <name>yarn.nodemanager.local-dirs</name>
                    <value>file:///data/hadoop/yarn/nm</value>
                </property>
            </configuration>

    篮球世界杯在哪买球 9

  7)创建相关目录

        sudo mkdir -p /data/hadoop/hdfs/nn
        sudo mkdir -p /data/hadoop/hdfs/dn
        sudo mkdir -p /data/hadoop/hdfs/snn
        sudo mkdir -p /data/hadoop/yarn/nm

   ���意:  

    如果使用sudo启动hadoop的相关进程,这几目录的权限可以不用管。
    如果是使用当前的用户启动相关进程,对于opt目录,当前用户得有读写权限,对于/data目录也需要读写权限。

   遇到问题:

      笔者就是在这个目录权限的问题吃el很大得亏。首先为了不使用sudo我将/data目录的权限修改为777,然后进行

      HDFS集群格式化的时候,出现:

        篮球世界杯在哪买球 10

      这时我在想为什么呢?原来我只是给data目录设置了读写权限,但是没有给它的子目录设置读写权限。所以:    

        chmod -R 777 /data    递归设置权限

  8)对HDFS集群进行格式化,HDFS集群是用来存储数据的。  

    hdfs namenode -format

 

高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

3.3、启动集群

  1)启动HDFS集群      

    hadoop-daemon.sh start namenode 启动主节点
    hadoop-daemon.sh start datanode 启动从节点

    篮球世界杯在哪买球 11

  2)启动YARN集群

    yarn-daemon.sh start resourcemanager
    yarn-daemon.sh start nodemanager

    篮球世界杯在哪买球 12

  3)启动作业历史服务器

    mr-jobhistory-daemon.sh start historyserver

    篮球世界杯在哪买球 13

  4)jps命令查看是否启动成功

    篮球世界杯在哪买球 14

  5)HDFS和YARN集群都有相对应的WEB监控页面

    HDFS:http://ip:50070

    篮球世界杯在哪买球 15

    YARN:http://ip:8088

    篮球世界杯在哪买球 16

  6)HDFS集群的简单操作命令

    hdfs dfs -ls /

    篮球世界杯在哪买球 17

    hdfs dfs -mkdir -p /user/zyh

    篮球世界杯在哪买球 18

  7) YARN集群的操作----提交任务/作业

    计算PI值的作业:
    yarn jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.1.jar pi 4 100

    篮球世界杯在哪买球 19

高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

四、一个问题

我之前没有注意发现我的yarn的从节点没有启动起来,在执行计算PI值的时候没有成功才看到:

  篮球世界杯在哪买球 20

查看日志发现是配置文件:

  在hdfs-site-web.xml中:

    篮球世界杯在哪买球 21

  查看http://1.0.0.5:50070可以查看从节点是否启动:

    篮球世界杯在哪买球 22

  在执行上面使用yarn集群来计算pi值得命令:

    篮球世界杯在哪买球 23

  查看http://1.0.0.5:8088可以看出计算pi值得任务正在执行:

    篮球世界杯在哪买球 24

  最后成功:

     这里就截图了,电脑卡住了,上图中在web页面可以查看到任务执行成功,终端中会显示执行结果!  

Hadoop2.3-HA高可用集群环境搭建  http://www.linuxidc.com/Linux/2017-03/142155.htm

Hadoop项目之基于CentOS7的Cloudera 5.10.1(CDH)的安装部署  http://www.linuxidc.com/Linux/2017-04/143095.htm

篮球世界杯在哪买球,Hadoop2.7.2集群搭建详解(高可用)  http://www.linuxidc.com/Linux/2017-03/142052.htm

使用Ambari来部署Hadoop集群(搭建内网HDP源)  http://www.linuxidc.com/Linux/2017-03/142136.htm

Ubuntu 14.04下Hadoop集群安装  http://www.linuxidc.com/Linux/2017-02/140783.htm

CentOS 6.7安装Hadoop 2.7.2  http://www.linuxidc.com/Linux/2017-08/146232.htm

Ubuntu 16.04上构建分布式Hadoop-2.7.3集群  http://www.linuxidc.com/Linux/2017-07/145503.htm

CentOS 7 下 Hadoop 2.6.4 分布式集群环境搭建  http://www.linuxidc.com/Linux/2017-06/144932.htm

Hadoop2.7.3 Spark2.1.0完全分布式集群搭建过程  http://www.linuxidc.com/Linux/2017-06/144926.htm

更多Hadoop相关信息见Hadoop 专题页面 http://www.linuxidc.com/topicnews.aspx?tid=13

本文永久更新链接地址http://www.linuxidc.com/Linux/2017-10/147466.htm

篮球世界杯在哪买球 25

低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C 。

Hadoop官网:http://hadoop.apache.org/

二、先决条件

保持Hadoop集群每个节点配置环境一致,安装java,配置ssh。

实验环境:

Platform:xen vm

OS: CentOS 6.8

Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm

Hostname IP Address OS version Hadoop role Node role
linux-node1 192.168.0.89 CentOS 6.8 Master namenode
linux-node2 192.168.0.90 CentOS 6.8 Slave datenode
linux-node3 192.168.0.91 CentOS 6.8 Slave datenode
linux-node4 192.168.0.92 CentOS 6.8 Slave datenode

#把需要的软件包下载下来上传到集群的各个节点上

三、集群的构架和安装

1、Hosts文件设置

#Hadoop集群中的每个节点的hosts文件都需要修改

[root@linux-node1 ~]# cat /etc/hosts
127.0.0.1   localhost localhost.localdomain linux-node1
192.168.0.89 linux-node1
192.168.0.90 linux-node2
192.168.0.91 linux-node3
192.168.0.92 linux-node4

2、安装java

#提前把下载好的JDK(rpm包)上传到服务器上,然后安装

rpm -ivh jdk-8u101-linux-x64.rpm
export JAVA_HOME=/usr/java/jdk1.8.0_101/
export PATH=$JAVA_HOME/bin:$PATH
# java -version
java version "1.8.0_101"
Java(TM) SE Runtime Environment (build 1.8.0_101-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.101-b13, mixed mode)

3、安装hadoop

#创建hadoop用户,设置使用sudo

[root@linux-node1 ~]# useradd hadoop && echo hadoop | passwd --stdin hadoop
[root@linux-node1 ~]# echo "hadoopALL=(ALL) NOPASSWD:ALL" >> /etc/sudoers
[root@linux-node1 ~]# su - hadoop
[hadoop@linux-node1 ~]$ cd /usr/local/src/
[hadoop@linux-node1src]$wget http://apache.fayea.com/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
[hadoop@linux-node1 src]$ sudo tar zxvf hadoop-2.7.3.tar.gz -C /home/hadoop/ && cd /home/hadoop
[hadoop@linux-node1 home/hadoop]$ sudo mv hadoop-2.7.3/ hadoop
[hadoop@linux-node1 home/hadoop]$ sudo chown -R hadoop:hadoop hadoop/

#将hadoop的二进制目录添加到PATH变量,并设置HADOOP_HOME环境变量

[hadoop@linux-node1 home/hadoop]$ export HADOOP_HOME=/home/hadoop/hadoop/
[hadoop@linux-node1 home/hadoop]$ export PATH=$HADOOP_HOME/bin:$PATH

4、创建hadoop相关目录

[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/dfs/{name,data}
[hadoop@linux-node1 ~]$ mkdir -p /home/hadoop/tmp

#节点存储数据备份目录

sudo mkdir -p /data/hdfs/{name,data}
sudo chown -R hadoop:hadoop /data/

#上述操作需在hadoop集群的每个节点都操作

5、SSH配置

#设置集群主节点免密码登陆其他节点

[hadoop@linux-node1 ~]$ ssh-keygen -t rsa
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node1@192.168.0.90
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node2@192.168.0.91
[hadoop@linux-node1 ~]$ ssh-copy-id linux-node3@192.168.0.92

篮球世界杯在哪买球 26

#测试ssh登录
篮球世界杯在哪买球 27

6、修改hadoop的配置文件

文件位置:/home/hadoop/hadoop/etc/hadoop,文件名称:hadoop-env.sh、yarn-evn.sh、slaves、core-site.xml、hdfs-site.xml、mapred-site.xml、 yarn-site.xml

(1)配置hadoop-env.sh文件

#在hadoop安装路径下,进入hadoop/etc/hadoop/目录并编辑hadoop-env.sh,修改JAVA_HOME为JAVA的安装路径

[hadoop@linux-node1 home/hadoop]$ cd hadoop/etc/hadoop/
[hadoop@linux-node1 hadoop]$ egrep JAVA_HOME hadoop-env.sh
# The only required environment variable is JAVA_HOME.  All others are
# set JAVA_HOME in this file, so that it is correctly defined on
#export JAVA_HOME=${JAVA_HOME}
export JAVA_HOME=/usr/java/jdk1.8.0_101/

(2)配置yarn.sh文件

指定yran框架的java运行环境,该文件是yarn框架运行环境的配置文件,需要修改JAVA_HOME的位置。

[hadoop@linux-node1 hadoop]$ grep JAVA_HOME yarn-env.sh
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
export JAVA_HOME=/usr/java/jdk1.8.0_101/

(3)配置slaves文件

指定DataNode数据存储服务器,将所有的DataNode的机器的主机名写入到此文件中,如下:

[hadoop@linux-node1 hadoop]$ cat slaves
linux-node2
linux-node3
linux-node4

Hadoop 3种运行模式

本地独立模式:Hadoop的所有组件,如NameNode,DataNode,Jobtracker,Tasktracker都运行在一个java进程中。

伪分布式模式:Hadoop的各个组件都拥有一个单独的Java虚拟机,它们之间通过网络套接字通信���

本文由美洲杯在哪买球发布于计算机教程,转载请注明出处:实战CentOS系统部署Hadoop集群服务

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。