什么是大数据平台

有三个疑问:

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?

大数据平台个人理解:

***是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个
完整的大数据业务解决方案,而不仅仅是做一个集群的维护者***

                        大数据平台的价值
                        
1.数据开发角度
一.降低数据开发门槛
二.提升数据开发人员效率

2.运维角度
一.降低运维门槛
二.提升运维效率

3.公司角度
一.数据统一管理(OneData理念),降低成本

大数据平台架构选型

在这里插入图片描述
在这里插入图片描述

离线计算:
1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL

离线数据同步:
1.DataX(Alibaba,开源支持单机版本)

FlinkX(Dtstack,开源支持单机,standalone,yarn 模式)
Sqoop(只能做Hadoop和关系型数据库之间的数据同步)
Kettle
实时计算:
1.Flink
2.SparkStreaming

Storm
JStorm(Alibaba)
StreamCQL(华为)
实时数据同步:
1.Flume

Logstash(Elastic)
JLogstash(Dtstack)
多维分析(即席查询):
1.Kylin

SparkSQL+CarbonData
Impala+Kudu 或Parquet
机器学习:
1.Spark MLib

Flink MLib
XGBoost
深度学习:
1.TensorFlow

Caffe
Keras
Keras
资源管理器:
1.Yarn

Mesos
Kubernetes+Docker
集群管理:
1.Cloudera
2.星环

Hortonworks
Ambari
Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐