Hadoop是一个由Apache基金会所开发的分布式系统基础架构。是用java语言开发的开源框架,是一个开发和运行处理大规模数据的软件平台,允许使用简单的编程模型在大量计算机集群上对大型数据进行分布式处理。目前的版本是3.0,常用的是2.0

 

协议上讲,Hadoop是指Apache开源框架,其核心组件有:

HDFS:分布式文件系统,解决海量数据的存储

YARN:作业调度和集群资源管理框架,解决资源任务调度

MAPREDUCE:分布式运行编程框架,解决海量数据的计算

广义上讲,Hadoop通常是指一个更广泛的生态圈,一些非Apache的主管项目对Hadoop进行了补充和更高层次的抽象。

从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common

 

 HDFS:分布式文件系统

MapResuce:分布式运算程序开发框架

HIVE:基于Hadoop的分布式数据仓库,提供基于SQL的查询数据操作

HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase和Avro已经于2010年5月成为顶级 Apache 项目)

Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。

Pig: 大数据分析平台,为用户提供多种接口。

Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。

Sqoop:于在HADOOP与传统的数据库间进行数据的传递。

 

Hadoop的优点

它主要有以下几个优点:

高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本。与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

转载于:https://www.cnblogs.com/headsman/p/10224019.html

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐