关于hadoop的发展和历史以及简介,这样的废话就不说,简而言之就一句话,开源的分布式云计算。

目前鄙人使用的是hadoop-1.0.4,下载地址:http://mirrors.cnnic.cn/apache/hadoop/common/hadoop-1.0.4/ 下载 hadoop-1.0.4.tar.gz 即可。

解压即可。

先对伪分布式的概念进行说明一下,整个环境的配置是基于linux的,目前鄙人使用的是redhat6企业版。

可以把伪分布式的Hadoop看做只有一个节点的集群,在这个集群中,这个节点既是Master,也是Slave;既是NameNode,也是DataNode;既是JobTracker,也是TaskTracker。

安装和配置Hadoop伪分布式有两个必要的条件,一个是JDK的环境,一个是linux SSH环境。其中SSH环境,最好配置为免密码登陆。(笑话:此处的SSH不是java里面的SSH框架,如果你是这么认为,我只能跟你说一句话:你很farmer。偷笑)关于这两个环境的配置,这边就不一一讲解了,可以参照其他博文。

下面开始来配置Hadoop:

1、进入conf文件夹,修改Hadoop-evn.sh,指定JDK

export JAVA_HOME=/opt/jdk1.6.0_43

2、配置HDFS的(Hadoop分布式文件系统)的地址和端口号

conf/core-site.xml:

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

3、HDFS的默认备份方式是3,单机修改为1

conf/hdfs-site.xml

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

4、配置JobTracker的地址及端口,MapReduce的配置

conf/mapred-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>


接下来就是启动Hadoop,先格式化HDFS。进入Hadoop文件夹,输入命令:bin/Hadoop namenode -format

启动Hadoop的命令:bin/start-all.sh

如果此处你没有配置SSH免密码登陆,需要你输入多次的用户密码。

如果启动成功,你可以在浏览器下分别输入:

http://localhost:50030 为MapReduce的web页面

http://localhost:50070 为HDFS的web页面

如果都能查看,说明配置成功。





Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐