大数据应用之Hadoop环境安装与配置完全解析
Hadoop是apache公司开源的一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它具有高可靠、高扩展、高效与高容错等特点,是大数据分析与应用的必备技术。
Hadoop是apache公司开源的一个能够让用户轻松架构和使用的分布式计算平台;
用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序;
它具有高可靠、高扩展、高效与高容错等特点,是大数据分析与应用的必备技术。
一、JDK下载并安装
Hadoop的运行与应用需要有JDK的支持,这里使用jdk1.8。
1. 下载地址
2. 安装教程
参考本站: Java前后端开发环境安装与配置完整版_java安装-CSDN博客
二、下载Hadoop并解压安装(或网络搜索下载)
创建好大数据安装文件,比如:d:\programd\bigdata
1. 下载地址
Index of /apache/hadoop/common
2. 解压后将hadoop-3.4.0放置到d:\programd\bigdata
如果没有,就创建文件夹programd及其子文件夹bigdata。
三、配置Hadoop环境变量
1. 右键单击我的电脑->属性->高级环境变量配置->高级选项卡->环境变量->系统变量
单击新建系统变量HADOOP_HOME,如下图
2. 编辑环境变量path,添加hadoop的bin与sbin目录
四、替换文件,保证Hadoop能在windows下运行
1. 下载winutils-master-windows.zip(目前找到为支持到hadoop-3.3.0也可以使用)
网盘:百度网盘 请输入提取码 提取码:8888
2. 解压winutils-master-windows.zip
将winutils-master-windows下的hadoop-3.3.0中bin目录下所有文件替换原来hadoop3.4.0目录下的的bin文件夹下的文件。
复制文件:
粘贴文件并选择覆盖:
五、修改hadoop配置文件
1. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的core-site.xml文件,将下列文本粘贴进去,并保存。
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>D:/programd/bigdata/hadoop-3.4.0/tmp</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
2. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的hdfs-site.xml文件,将下列文本粘贴进去,并保存。
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>/D:/programd/bigdata/hadoop-3.4.0/data/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/D:/programd/bigdata/hadoop-3.4.0/data/datanode</value>
</property>
</configuration>
3. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的mapred-site.xml文件,将下列文本粘贴进去,并保存。
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9001</value>
</property>
</configuration>
4. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”下的yarn-site.xml文件,将下列文本粘贴进去,并保存。
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hahoop.mapred.ShuffleHandler</value>
</property>
</configuration>
5. 用记事本编辑“D:\programd\bigdata\hadoop-3.4.0\etc\hadoop”目录下的hadoop-env.cmd文件,将JAVA_HOME用@rem注释掉,编辑为JAVA_HOME的路径,并保存
6. 检查Hadoop是否配置成功,windows命令窗口输入hadoop version
六、启动Hadoop
1. 格式化主节点(首次启动需要格式化,下次启动不用再格式化)
hdfs namenode -format
2. 在windows命令窗口分别启动hdfs与yarn
方式一:依次执行 hdfs namenode、hdfs datanode与start-yarn
c:\> hdfs namenode
c:\> hdfs datanode
c:\> start-yarn
方式二:依次执行 start-dfs与start-yarn(此方式已过时)
运行效果图如下:
提示:恭喜您,到此Hadoop服务器搭建成功!
3. 查看Hadoop运行的进程:jps
查看到这几个进程,表示Hadoop完全启动成功!
提示:hadoop的linux安装请关注本站其他分享
七、上传文件测试hdfs的应用
根据core-site.xml文件的配置,可以通过hdfs://localhost:9000来对hdfs进行操作了
1. 创建输入目录(在命令提示符下)
hadoop fs -mkdir hdfs://localhost:9000/user/
hadoop fs -mkdir hdfs://localhost:9000/user/ww
2. 上传数据到hdfs中的目录(在命令提示符下)
hadoop fs -put D:\temp\yu1.txt hdfs://localhost:9000/user/ww
hadoop fs -put D:\temp\yu2.txt hdfs://localhost:9000/user/ww
以上效果如下:
3. 查看文件(在命令提示符下)
hadoop fs -ls hdfs://localhost:9000/user/ww
4. 停止hadoop服务
依次执行: stop-yarn.cmd与stop-dfs.cmd
八、Hadoop的web控制台GUI(图形界面),进一步检验安装效果
1. 资源管理GUI:http://localhost:8088/
2. 节点管理GUI:http://localhost:8042/
更多内容请关注本站其他分享!!!
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)