目录

集群部署规划

自定义配置文件

节点格式化 

配置workers 

启动集群 

配置历史服务器


集群部署规划

hadoop102hadoop103hadoop104
HDFS

NameNode

DataNode

SecondaryNameNode

DataNode

YARN

NodeManager

ResourceManager

NodeManager

NodeManager

自定义配置文件

core-site.xml、hdfs-site.xml、yarn-site.xml、mapred-site.xml 四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,可以根据项目需求重新进行修改配置

dd589fddbdd2475f9f111148686fd819.png

修改配置文件,可以拷贝到windows下修改完成后覆盖

1、核心配置文件 core-site.xml

<configuration>
 <!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://hadoop102:8020</value>
    </property>

    <!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-3.2.1/data</value>
    </property>

    <!-- 配置HDFS网页登录使用的静态用户为root -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>
    </property>
</configuration>

2、HDFS配置文件 hdfs-site.xml

<configuration>
<!-- NameNode web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>hadoop102:9870</value>
    </property>
	<!-- SecondaryNameNdoe web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>hadoop104:9868</value>
    </property>
</configuration>

3、YARN配置文件 yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->

    <!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>

    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>hadoop103</value>
    </property>

    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
</configuration>

4、MapReduce配置文件 mapred-site.xml

<configuration>
<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

在集群上分发配置好的Hadoop配置文件

利用之前编写好的xsync脚本进行分发

xsync /opt/module/hadoop-3.2.1/etc/hadoop/

查看文件分发情况

分别在hadoop103、hadoop104执行命令,查看配置文件内容

cat /opt/module/hadoop-3.2.1/etc/hadoop/core-site.xml
cat /opt/module/hadoop-3.2.1/etc/hadoop/hdfs-site.xml
cat /opt/module/hadoop-3.2.1/etc/hadoop/yarn-site.xml
cat /opt/module/hadoop-3.2.1/etc/hadoop/mapred-site.xml

节点格式化 

第一次启动集群需要在hadoop102节点执行 hdfs namenode -format 格式化NameNode

ee133faa5dc248a994cc7a8f1e69d679.png

配置workers 

注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行

f129bad0b8a64d55899e42462000ffb6.png

使用root用户启动HDFS需要注意:

启动前还需要在hadoop-evn.sh文件中添加一些内容

文件路径: /opt/module/hadoop-3.2.1/etc/hadoop/hadoop-env.sh

export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"
export HDFS_SECONDARYNAMENODE_USER="root"
export YARN_RESOURCEMANAGER_USER="root"
export YARN_NODEMANAGER_USER="root"

每台虚拟机的文件中都要添加

启动集群 

启动HDFS sbin/start-dfs.sh

0980292ad04e484eb4e646444f11b928.png

在配置了ResourceManager的节点(hadoop103)启动YARN sbin/start-yarn.sh

5f5cc9486eab474d9f2296a04ecd9d71.png

Web端查看HDFS的NameNode 

  • 浏览器输入 http://hadoop102:9870

Web端查看YARN的ResourceManager 

  •  浏览器输入 http://hadoop103:8088

配置历史服务器

为了查看程序的历史运行情况,需要配置一下历史服务器

mapred-site.xml中增加下面的内容

<!-- 历史服务器端地址 -->
<property>
    <name>mapreduce.jobhistory.address</name>
    <value>hadoop102:10020</value>
</property>

<!-- 历史服务器web端地址 -->
<property>
    <name>mapreduce.jobhistory.webapp.address</name>
    <value>hadoop102:19888</value>
</property>

执行命令分发配置 xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

在hadoop102启动历史服务器

执行命令 mapred --daemon start historyserver

eff61f86cc6a49729418df84ea9cea6a.png

 浏览器输入 http://hadoop102:19888/jobhistory 查看JobHistory

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐