运行Hadoop自带的MapReduce WordCount单词统计程序
使用的环境如下:VMware虚拟机下CentOS7hadoop-3.2.0jdk1.8.0_221完成hadoop的伪分布式搭建后,就可以执行hadoop自带的WordCount程序来入门了。先启动hadoop,不然程序时不会成功运行的。一、找到WordCount程序在hadoop安装目录 /home/helloworld/software/hadoop-3.2.0/share...
使用的环境如下:
- VMware虚拟机下CentOS7
- hadoop-3.2.0
- jdk1.8.0_221
完成hadoop的伪分布式搭建后,就可以执行hadoop自带的WordCount程序来入门了。
先启动hadoop,不然程序是不会成功运行的。
一、找到WordCount程序
在hadoop安装目录 /home/helloworld/software/hadoop-3.2.0/share/hadoop/mapreduce 下:
可以看到,就是 hadoop-mapreduce-examples-3.2.0.jar 这个压缩包。
二、创建HDFS数据目录
1、创建一个多级目录,保存MapReduce的输入文件
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -mkdir -p /data/wordcount
2、创建一个目录,保存MapReduce的输出文件
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -mkdir /output
3、查看刚才创建的文件
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -ls /
三、创建一个单词文本,并上传到HDFS
可以用这个命令创建一个.txt文件,其他命令也可以:
[helloworld@localhost hadoop-3.2.0]$ vim myword.txt
上传这个文件到HDFS中:
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -put myword.txt /data/wordcount
在HDFS中查看是否上传成功并列出文档内容
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -ls /data/wordcount
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -cat /data/wordcount/myword.txt
四、运行 WordCount 程序
运行下面的代码:
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop jar /home/helloworld/software/hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /data/wordcount /output/wordcount
上面命令代码比较长,分六个部分:
- hadoop 是$HADOOP_HOME/bin下的shell脚本名。
- jar:hadoop脚本需要的command参数。
- /home/helloworld/software/hadoop-3.2.0/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar :要执行的jar包在本地文件系统中的完整路径,参递给RunJar类。
- wordcount :main方法所在的类,参递给RunJar类。
- /data/wordcount:传递给WordCount类,作为DFS文件系统的路径,指示输入数据来源。
- /output/wordcount:传递给WordCount类,作为DFS文件系统的路径,指示输出数据路径。
五、查看统计结果
先查看存放结果的 output 文件下有哪些文件:
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -ls /output/wordcount/
接着打开这个 part-r-00000 的文件,它就是存放结果的文件。( 在第五步中解释命令时已经提到了结果存在的文件,也可以直接调用命令打开。)
[helloworld@localhost hadoop-3.2.0]$ ./bin/hadoop fs -cat /output/wordcount/part-r-00000
对比自己在txt文件里写的内容,发现结果正确
常用的HDFS命令可以参考:https://blog.csdn.net/weixin_43207025/article/details/100527501
运行中遇到“找不到或无法加载主类”,可以参考:https://blog.csdn.net/weixin_43207025/article/details/100527859
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)