大数据应用之Hadoop环境安装与配置完全解析

Hadoop是apache公司开源的一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它具有高可靠、高扩展、高效与高容错等特点，是大数据分析与应用的必备技术。

天涯幺妹

1770人浏览 · 2024-07-21 19:41:19

天涯幺妹 · 2024-07-21 19:41:19 发布

Hadoop是apache公司开源的一个能够让用户轻松架构和使用的分布式计算平台；

用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序；

它具有高可靠、高扩展、高效与高容错等特点，是大数据分析与应用的必备技术。

一、JDK下载并安装

Hadoop的运行与应用需要有JDK的支持，这里使用jdk1.8。

1. 下载地址

Java Downloads | Oracle

2. 安装教程

参考本站： Java前后端开发环境安装与配置完整版_java安装-CSDN博客

二、下载Hadoop并解压安装（或网络搜索下载）

创建好大数据安装文件，比如：d:\programd\bigdata

1. 下载地址

Index of /apache/hadoop/common

2. 解压后将hadoop-3.4.0放置到d:\programd\bigdata

如果没有，就创建文件夹programd及其子文件夹bigdata。

三、配置Hadoop环境变量

1. 右键单击我的电脑->属性->高级环境变量配置->高级选项卡->环境变量->系统变量

单击新建系统变量HADOOP_HOME,如下图

2. 编辑环境变量path，添加hadoop的bin与sbin目录

四、替换文件，保证Hadoop能在windows下运行

1. 下载winutils-master-windows.zip(目前找到为支持到hadoop-3.3.0也可以使用)

网盘：百度网盘请输入提取码提取码：8888

2. 解压winutils-master-windows.zip

将winutils-master-windows下的hadoop-3.3.0中bin目录下所有文件替换原来hadoop3.4.0目录下的的bin文件夹下的文件。

复制文件：

粘贴文件并选择覆盖：

五、修改hadoop配置文件

1. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的core-site.xml文件，将下列文本粘贴进去，并保存。

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>D:/programd/bigdata/hadoop-3.4.0/tmp</value>

    </property>

    <property>

        <name>fs.defaultFS</name>

        <value>hdfs://localhost:9000</value>

    </property>

</configuration>

2. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的hdfs-site.xml文件，将下列文本粘贴进去，并保存。

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>/D:/programd/bigdata/hadoop-3.4.0/data/namenode</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>/D:/programd/bigdata/hadoop-3.4.0/data/datanode</value>

    </property>

</configuration>

3. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的mapred-site.xml文件，将下列文本粘贴进去，并保存。

<configuration>

 <property>

       <name>mapreduce.framework.name</name>

       <value>yarn</value>

    </property>

    <property>

       <name>mapred.job.tracker</name>

       <value>hdfs://localhost:9001</value>

    </property>

</configuration>

4. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的yarn-site.xml文件，将下列文本粘贴进去，并保存。

<configuration>

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <property>

      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

        <value>org.apache.hahoop.mapred.ShuffleHandler</value>

    </property>

</configuration>

5. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”目录下的hadoop-env.cmd文件，将JAVA_HOME用@rem注释掉，编辑为JAVA_HOME的路径，并保存

6. 检查Hadoop是否配置成功，windows命令窗口输入hadoop version

六、启动Hadoop

1. 格式化主节点(首次启动需要格式化，下次启动不用再格式化)

hdfs namenode -format

2. 在windows命令窗口分别启动hdfs与yarn

方式一：依次执行 hdfs namenode、hdfs datanode与start-yarn

c:\> hdfs  namenode
c:\> hdfs  datanode
c:\> start-yarn

方式二：依次执行 start-dfs与start-yarn（此方式已过时）

运行效果图如下：

提示：恭喜您，到此Hadoop服务器搭建成功！

3. 查看Hadoop运行的进程：jps

查看到这几个进程，表示Hadoop完全启动成功！

提示：hadoop的linux安装请关注本站其他分享

七、上传文件测试hdfs的应用

根据core-site.xml文件的配置,可以通过hdfs://localhost:9000来对hdfs进行操作了

1. 创建输入目录（在命令提示符下）

hadoop fs -mkdir hdfs://localhost:9000/user/

hadoop fs -mkdir hdfs://localhost:9000/user/ww

2. 上传数据到hdfs中的目录（在命令提示符下）

hadoop fs -put D:\temp\yu1.txt hdfs://localhost:9000/user/ww

hadoop fs -put D:\temp\yu2.txt hdfs://localhost:9000/user/ww

以上效果如下：

3. 查看文件(在命令提示符下)

hadoop fs -ls hdfs://localhost:9000/user/ww

4. 停止hadoop服务

依次执行： stop-yarn.cmd与stop-dfs.cmd

八、Hadoop的web控制台GUI(图形界面)，进一步检验安装效果

1. 资源管理GUI：http://localhost:8088/

2. 节点管理GUI：http://localhost:8042/

更多内容请关注本站其他分享！！！

开放原子开发者工作坊

开放原子开发者工作坊旨在鼓励更多人参与开源活动，与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动，如meetup、训练营等，主打技术交流，干货满满，真诚地邀请各位开发者共同参与！

更多推荐

第二届开放原子大赛首批创新成果集结武汉，诚邀广大开发者共鉴开源技术盛宴

开放原子开发者工作坊

诚邀报名 | 开源基础设施能力建设分论坛：打造开源生态的“心脏”

开放原子开发者工作坊

诚邀报名 | 编程语言分论坛：AI时代的技术革新与开源实践

开放原子开发者工作坊

所有评论(0)

查看更多评论

天涯幺妹

@sinat_30844883

已为社区贡献13条内容