1、产品定位

(1) 关于华为的大数据平台,本人之前用过FusionInsight HD版本,近期也在用MRS结合MPP和治理平台做湖仓一体的开发,其实MRS是在HD基础上进行的升级、改版,MRS是集成一些开源的大数据组件,有自己的运维和安全管理系统Manager,中间也做了一些默认的集成,比如Hudi和Hive的同步数据等等。

(2) FusionInsight MRS是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力,可解决各大企业的以下需求:

• 快速地整合和管理不同类型的大容量数据
• 对原生形式的信息提供高级分析
• 可视化所有的可用数据,供特殊分析使用
• 为构建新的分析应用程序提供开发环境
• 工作负荷的优化和调度

在这里插入图片描述

2、技术特点

华为FusionInsight MRS发行版紧随开源社区的最新技术,快速集成最新组件,并在可靠性、安全性、管理性等方面做企业级的增强,持续改进,持续保持技术领先。

FusionInsight MRS的企业级增强主要表现在以下几个方面。

安全
•架构安全
FusionInsight MRS基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。

•认证安全
◾基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。

◾支持Hadoop Ranger鉴权框架,通过PBAC(Policy-based access control,基于策略的权限控制)方式进行权限管理,可对HDFS、Hive、HBase等组件进行细粒度的数据访问控制策略。

◾支持安全协议Kerberos,FusionInsight MRS使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。

◾提供单点登录,统一了Manager系统用户和组件用户的管理及认证。

◾对登录FusionInsight Manager的用户进行审计。

•文件系统层加密

Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。

◾加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。

◾业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。

可靠

•所有管理节点组件均实现HA(High Availability)
业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。

•集群异地灾备
业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。

•数据备份恢复
表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。

•单集群跨AZ
提供单集群下跨AZ级别的数据容灾能力,保障数据可靠性。

易用

•统一运维管理
FusionInsight Manager作为FusionInsight MRS的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。

•易集成
提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。

•易开发
提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。

3、软件组成

FusionInsight MRS系统逻辑架构图
在这里插入图片描述
FusionInsight MRS对开源组件进行封装和增强,包含Manager和众多组件,分别提供功能如下:

CDL

CDL是一种简单,高效,数据实时集成服务。

ClickHouse

用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

DBService

一个具备高可靠性的传统关系型数据库,为Hive、Hue、Oozie、Loader、Metadata和Redis组件提供元数据存储服务。

Elasticsearch

兼有搜索引擎和NoSQL数据库功能的开源系统,基于JAVA/Lucene构建,开源、分布式、支持RESTful请求。

Flink

一个批处理和流处理结合的统一计算框架,提供数据分发以及并行化计算的流数据处理引擎。

Flume

一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。

FTP-Server

通过通用的FTP客户端、传输协议提供对HDFS文件系统进行基本的操作,例如:文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

GraphBase

基于HBase和Elasticsearch的分布式图数据库,将数据构建成属性图模型进行存储,提供强大的图查询、分析、遍历能力。

HBase

提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。

HDFS

Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。

HetuEngine

HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。

Hive

建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

Hue

提供了FusionInsight MRS应用的图形化用户Web界面。Hue支持展示多种组件,目前支持HDFS、Hive、Yarn/Mapreduce、Oozie、Solr、ZooKeeper。

IoTDB

一体化收集、存储、管理与分析物联网时序数据的软件系统。

Kafka

一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。

KMS

一个基于KeyProvider API编写的密钥管理服务器。

Loader

Loader基于开源Sqoop组件进行了功能增强,实现FusionInsight MRS与关系型数据库、文件系统之间交换数据和文件的数据加载工具;同时提供REST API接口,供第三方调度平台调用。

Manager

作为运维系统,为FusionInsight MRS提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级等。

Mapreduce

提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

Metadata

为数据仓库类型的组件(Hive和HBase)提供元数据的抽取能力,并且可以人工为每个元数据进行标签设定,用于后向的数据分析、搜索等扩展功能。

Oozie

提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器(如:Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。

Ranger

Ranger是一个基于Hadoop平台,旨在为复杂数据提供监控、操作、管理等权限管控接口的集中式框架。

Redis

一个开源的、高性能的key-value分布式存储数据库,支持丰富的数据类型,弥补了memcached这类key-value存储的不足,满足实时的高并发需求。

SmallFS

提供小文件后台合并功能,能够自动发现系统中的小文件(通过文件大小阈值判断),在闲时进行合并,并把元数据存储到本地的LevelDB中,来降低NameNode压力,同时提供新的FileSystem接口,让用户能够透明的对这些小文件进行访问。

Solr

一个高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。

Spark

基于内存进行计算的分布式计算框架。

Tez

支持有向无环图的分布式计算框架。

Yarn

资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。

ZooKeeper

提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐