大数据工具汇总

按照字母顺序排序ActiveMQApache出品，号称“最流行的，最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快，支持多种跨语言的客户端和协议，其企业集成模式和许多先进的功能易于使用，是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。Amazon SimpleDB是一个用Erlang编写的高可用的NoSQL数据存储，能够减轻数据库管理工作，开发人员只需

118路司机

1846人浏览 · 2020-08-31 19:12:48

118路司机 · 2020-08-31 19:12:48 发布

按照字母顺序排序

ActiveMQ

Apache出品，号称“最流行的，最强大”的开源消息集成模式服务器。ActiveMQ特点是速度快，支持多种跨语言的客户端和协议，其企业集成模式和许多先进的功能易于使用，是一个完全支持JMS1.1和J2EE 1.4规范的JMS Provider实现。

Alluxio

前身是Tachyon，是以内存为中心的分布式文件系统，拥有高性能和容错能力，能够为集群框架（如Spark、MapReduce）提供可靠的内存级速度的文件共享服务。

Amazon SimpleDB

是一个用Erlang编写的高可用的NoSQL数据存储，能够减轻数据库管理工作，开发人员只需通过Web服务请求执行数据项的存储和查询，Amazon SimpleDB 将负责余下的工作。作为一项Web 服务，像Amazon的EC2和S3一样，是Amazon网络服务的一部分。

Ambari

作为Hadoop生态系统的一部分，提供了基于Web的直观界面，可用于配置、管理和监控Hadoop集群。目前已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeper、Sqoop和Hcatalog等。

Apex

Apex是一个企业级的大数据动态处理平台，即能够支持即时的流式数据处理，也可以支持批量数据处理。它可以是一个YARN的原生程序，能够支持大规模、可扩展、支持容错方法的流式数据处理引擎。它原生的支持一般事件处理并保证数据一致性（精确一次处理、最少一次、最多一次）。以前DataTorrent公司开发的基于Apex的商业处理软件，其代码、文档及架构设计显示，Apex在支持DevOps方面能够把应用开发清楚的分离，用户代码通常不需要知道他在一个流媒体处理集群中运行。Malhar是一个相关项目，提供超过300种常用的实现共同的业务逻辑的应用程序模板。Malhar的链接库可以显著的减少开发Apex应用程序的时间，并且提供了连接各种存储、文件系统、消息系统、数据库的连接器和驱动程序。并且可以进行扩展或定制，以满足个人业务的要求。所有的malhar组件都是Apache许可下使用。

Azkaban

一款基于Java编写的任务调度系统任务调度，来自LinkedIn公司，用于管理他们的Hadoop批处理工作流。Azkaban根据工作的依赖性进行排序，提供友好的Web用户界面来维护和跟踪用户的工作流程。

Beam

基于Java提供了统一的数据进程管道开发，并且能够很好地支持Spark和Flink。提供很多在线框架，开发者无需学太多框架。

BigML

BIgML是尝试简化机器学习，它们提供了大量强劲的机器学习服务，并且该服务可以通过简单易用的界面导入数据，并且得到预测结果。你也可以使用它们的模型来今夕预测性分析。

Cascading

是一个基于Hadoop建立的API，用来创建复杂和容错数据处理工作流。它抽象了集群拓扑结构和配置，使得不用考虑背后的MapReduce，就能快速开发复杂的分布式应用。

Cassandra

是一个混合型的非关系的数据库，类似于Google的BigTable，其主要功能比Dynamo （分布式的Key-Value存储系统）更丰富。这种NoSQL数据库最初由Facebook开发，现已被1500多家企业组织使用，包括苹果、欧洲原子核研究组织（CERN）、康卡斯特、电子港湾、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他机构。

CDAP

CDAP（Cask Data Access Platform）是一个在Hadoop之上运行的框架，抽象了建造和运行大数据应用的复杂性。CDAP围绕两个核心概念：数据和应用程序。CDAP数据集是数据的逻辑展现，无论底层存储层是什么样的；CDAP提供实时数据流处理能力。应用程序使用CDAP服务来处理诸如分布式事务和服务发现等应用场景，避免程序开发者淹没在Hadoop的底层细节中。CDAP自带的数据摄取框架和一些预置的应用和一些通用的“包”，例如ETL和网站分析，支持测试，调试和安全等。和大多数原商业（闭源）项目开源一样，CDAP具有良好的文档，教程，和例子。

Ceph

新一代开源分布式文件系统，主要目标是设计成基于POSIX的没有单点故障的分布式文件系统，提高数据的容错性并实现无缝的复制。

Chart.js

对于一个小项目的图表，chart.js是一个很好的选择。开源，只有11KB大小，这使得它快速且易于使用，它支持多种图表类型: 饼图，线性图和雷达图等。

ChartBlocks

ChartBlocks是一个易于使用在线工具，它无需编码，便能从电子表格，数据库中构建可视化图表。整个过程可以在图表向导的指导下完成。您的图表将在HTML5的框架下使用强大的Java库D3.js创建图表。你的图表是响应式的，并且可以和任何的屏幕尺寸及设备兼容。您还可以将图表嵌入任何网页中，分享在Twitter和Facebook上。

Chartist.js

Chartist.js的开发社区一直致力于打败所有其他JavaScript图表库。它使用了Sass的个性化风格，它的SVG输出是响应式的。

Chukwa

监测大型分布式系统的一个开源数据采集系统，建立在HDFS/MapReduce框架之上并继承了Hadoop的可伸缩性和可靠性，可以收集来自大型分布式系统的数据，用于监控。它还包括灵活而强大的显示工具用于监控、分析结果。

CouchDB

号称是“一款完全拥抱互联网的数据库”，它将数据存储在JSON文档中，这种文档可以通过Web浏览器来查询，并且用JavaScript来处理。它易于使用，在分布式上网络上具有高可用性和高扩展性。

D3.js

毋容置疑D3.js是最好的数据可视化工具库。D3.js运行在JavaScript上，并使用HTML，CSS和SVG。 D3.js是开源工具，使用数据驱动的方式创建漂亮的网页。 D3.js可实现实时交互。这个库非常强大和前沿，所以它带有没有预置图表也不支持IE9。

DataCleaner

Datacleaner明白数据操作是一项耗时和费力的工作。数据可视化工具只能够识别规范的干净的格式化数据集。Datacleaner可以将杂乱的半结构化的数据转化为干净可读的数据集，经过清洗后的数据就可以被任何可视化公司的工具读取。

Datale

由探码科技研发的一款基于Hadoop的大数据平台开发套件，RAI大数据应用平台架构。

Datawrapper

Datawrapper是一款专注于新闻和出版的可视化工具。华盛顿邮报，卫报，华尔街日报和Twitter等媒体都使用了这一工具。Datawrapper非常容易使用，不需要任何编程基础。你只需要上传你的数据，便能轻松地创建和发布图表，甚至是地图。Datawrapper提供了众多的自定义布局及地图模板。

Drill

于2012年8月份由Apache推出，让用户可以使用基于SQL的查询，查询Hadoop、NoSQL数据库和云存储服务。它能够运行在上千个节点的服务器集群上，且能在几秒内处理PB级或者万亿条的数据记录。它可用于数据挖掘和即席查询，支持一系列广泛的数据库，包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亚马逊S3、Azure Blob Storage、谷歌云存储和Swift。
Drill是一种用于大型数据集的交互分析的分布式系统，由谷歌的Dremel催生。Drill专为嵌套数据的低延迟分析设计，它有一个明确的设计目标，灵活的扩展到10000台服务器来处理查询记录数据，并支持兆级别的数据记录。嵌套的数据可以从各种数据源获得的（如HDFS，HBase，Amazon S3，和Blobs）和多种格式（包括JSON，Avro，和buffers），你不需要在读取时指定一个模式（“读时模式”）。Drill使用ANSI 2003 SQL的查询语言为基础，所以数据工程师是没有学习压力的，它允许你连接查询数据并跨多个数据源（例如，连接HBase表和在HDFS中的日志）。最后，Drill提供了基于ODBC和JDBC接口以和你所喜欢的BI工具对接。

Druid

是一个用于大数据实时查询和分析的高容错、高性能、分布式的开源系统，旨在快速处理大规模的数据，并能够实现快速查询和分析。

Druid的核心是一个使用专门的节点来处理每个部分的问题自定义的数据存储。实时分析基于实时管理（JVM）节点来处理，最终数据会存储在历史节点中负责老的数据。代理节点直接查询实时和历史节点，给用户一个完整的事件信息。测试表明50万事件数据能够在一秒内处理完成，并且每秒处理能力可以达到100万的峰值，Druid作为在线广告处理、网络流量和其他的活动流的理想实时处理平台。

Dynamo

是一个经典的分布式Key-Value 存储系统，具备去中心化、高可用性、高扩展性的特点。Dynamo在Amazon中得到了成功的应用，能够跨数据中心部署于上万个结点上提供服务，它的设计思想也被后续的许多分布式系统借鉴。

DYSON

探码科技自主研发的DYSON智能分析系统，可以完整的实现大数据的采集、分析、处理。DYSON智能分析系统专业针对互联网数据抓取、处理、分析，挖掘。可以灵活迅速地抓取网页上散乱分布的信息，并通过强大的处理功能，准确挖掘出所需数据，是目前使用人数最多的网页采集工具.

Elasticsearch

Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式、支持多用户的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索、稳定、可靠、快速、安装使用方便。

Elasticsearch基于JSON格式的近乎实时的构建了数据索引，能够实现快速全文检索功能。结合开源Kibana BI显示工具，您可以创建令人印象深刻的数据可视化界面。Elasticsearch易于设置和扩展，他能够自动根据需要使用新的硬件来进行分片。他的查询语法和SQL不太一样，但它也是大家很熟悉的JSON。大多数用户不会在那个级别进行数据交互。开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互，包括Ruby，Python，PHP，Perl，Java，JavaScript等。

Ember Charts

Ember Charts – 顾名思义是一种基于Ember.js框架和使用d3.js的可视化工具。Ember Charts以绘制时间序列图，柱状图，饼图和散点图为主。它非常优易于扩展。同为Ember.js开发团队，Ember Charts聚焦于图形互动性。它有极强的错误处理能力，当你遇到坏数据时，系统也不会崩溃

Flink

于今年跻身Apache顶级开源项目，与HDFS完全兼容。Flink提供了基于Java和Scala的API，是一个高效、分布式的通用大数据分析引擎。更主要的是，Flink支持增量迭代计算，使得系统可以快速地处理数据密集型、迭代的任务。

Flink的核心是一个事件流数据流引擎。虽然表面上类似Spark，实际上Flink是采用不同的内存中处理方法的。首先，Flink从设计开始就作为一个流处理器。批处理只是一个具有开始和结束状态的流式处理的特殊情况，Flink提供了API来应对不同的应用场景，无论是API（批处理）和数据流API。MapReduce的世界的开发者们在面对DataSet处理API时应该有宾至如归的感觉，并且将应用程序移植到Flink非常容易。在许多方面，Flink和Spark一样，其的简洁性和一致性使他广受欢迎。像Spark一样，Flink是用Scala写的。

Flume

Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方，用于收集数据。同时，Flume支持对数据进行简单处理，并写入各种数据接受方（可定制）。

FusionCharts

FusionCharts是最全面的JavaScript图表库，包括90个图表和900种地图。如果你不是特别喜欢的JavaScript。FusionCharts可以轻松集成像jQuery库，Angularjs和React框架以及ASP.NET和PHP语言。 FusionCharts支持JSON和XML数据，并提供许多格式图表：PNG，JPEG，SVG和PDF。

GemFire

Pivotal宣布它将开放其大数据套件关键组件的源代码，其中包括GemFire内存中NoSQL数据库。它已向Apache软件基金会递交了一项提案，以便在“Geode”的名下管理GemFire数据库的核心引擎。

GlusterFS

一个集群的文件系统，支持PB级的数据量。GlusterFS 通过RDMA和TCP/IP方式将分布到不同服务器上的存储空间汇集成一个大的网络化并行文件系统。

Google Charts

Google Charts 以HTML5和SVG为基础，充分考虑了跨浏览器的兼容性，并通过VML支持旧版本的IE浏览器。所有您将创建的图表是交互式的，有的还可缩放。Google Charts是非常人性化和他们的网站拥有一个非常好的，全面的模板库，你可以从中找到所需模板。

GridGain

由Apache Ignite驱动的GridGrain提供内存中数据结构，用于迅速处理大数据，还提供基于同一技术的Hadoop加速器。

Hadoop

一个开源框架，适合运行在通用硬件，支持用简单程序模型分布式处理跨集群大数据集，支持从单一服务器到上千服务器的水平scale up。Apache的Hadoop项目已几乎与大数据划上了等号，它不断壮大起来，已成为一个完整的生态系统，拥有众多开源工具面向高度扩展的分布式计算。高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。

H2O

H2O是一种分布式的内存处理引擎用于机器学习，它拥有一个令人印象深刻的数组的算法。早期版本仅仅支持R语言，3.0版本开始支持Python和Java语言，同时它也可以作为Spark在后端的执行引擎。使用H2O的最佳方式是把它作为R环境的一个大内存扩展，R环境并不直接作用于大的数据集，而是通过扩展通讯协议例如REST API与H2O集群通讯，H2O来处理大量的数据工作。几个有用的R扩展包，如ddply已经被打包，允许你在处理大规模数据集时，打破本地机器上内存容量的限制。你可以在EC2上运行H2O，或者Hadoop集群/YARN集群，或者Docker容器。用苏打水（Spark+ H2O）你可以访问在集群上并行的访问Spark RDDS，在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。

HaLoop

是一个Hadoop MapReduce框架的修改版本，其目标是为了高效支持迭代，递归数据分析任务，如PageRank，HITs，K-means，sssp等。

HBase

是Hadoop的数据库，一个分布式、可扩展、大数据的存储。是为有数十亿行和数百万列的超大表设计的，是一种分布式数据库，可以对大数据进行随机性的实时读取/写入访问。提供类似谷歌Bigtable的存储能力，基于Hadoop和Hadoop分布式文件系统（HDFS）而建。
HBase像其他的非关系型的分布式数据存储一样，查询结果反馈非常迅速，因此擅长的是经常用于后台搜索引擎，如易趣网，博科和雅虎等网站。作为一个稳定的、成熟的软件产品，HBase新鲜的功能并不是经常出现，但这种稳定性往往是企业最关心的。最近的改进包括增加区域服务器改进高可用性，滚动升级支持，和YARN的兼容性提升。在他的特性更新方面包括扫描器更新，保证提高性能，使用HBase作为流媒体应用像Storm和Spark持久存储的能力。HBase也可以通过Phoenix项目来支持SQL查询，其SQL兼容性在稳步提高。Phoenix最近增加了一个Spark连接器，添加了自定义函数的功能。

HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

Highcharts

Highcharts是一个JavaScript API与jQuery的集成，全球最大的100家公司中有61家正在使用它。图表使用SVG格式，并使用VML支持旧版浏览器。它提供了两个专门的图表类型：Highstock和Highmaps，并且还配备了一系列的插件。你可以免费使用它，而如果你想建立付费的应用，只须支付少量牌照费用。此外，你还可以使用Highcharts云服务。

Hive

是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

Hivemall

结合了面向Hive的多种机器学习算法，它包括了很多扩展性很好的算法，可用于数据分类、递归、推荐、k最近邻、异常检测和特征哈希等方面的分析应用。

HPCC

作为Hadoop之外的一种选择，是一个利用集群服务器进行大数据分析的系统，HPCC在LexisNexis内部使用多年，是一个成熟可靠的系统，包含一系列的工具、一个称为ECL的高级编程语言、以及相关的数据仓库，扩展性超强

Hypertable

是一个开源、高性能、可伸缩的数据库，它采用与Google的Bigtable相似的模型。它与Hadoop兼容，性能超高，其用户包括电子港湾、百度、高朋、Yelp及另外许多互联网公司。

Ignite

是一种高性能、整合式、分布式的内存中平台，可用于对大规模数据集执行实时计算和处理，速度比传统的基于磁盘的技术或闪存技术高出好几个数量级。该平台包括数据网格、计算网格、服务网格、流媒体、Hadoop加速、高级集群、文件系统、消息传递、事件和数据结构等功能。

Impala

Cloudera 声称，基于SQL的Impala数据库是“面向Apache Hadoop的领先的开源分析数据库”。它可以作为一款独立产品来下载，又是Cloudera的商业大数据产品的一部分。Cloudera Impala 可以直接为存储在HDFS或HBase中的Hadoop数据提供快速、交互式的SQL查询。

Infogram

Infogram的最大优势在于，让您的可视化信息图表与实时大数据相链接。只须三个简单步骤，您可以选择在众多图表，地图，甚至是视频可视化模板中进行选择。 Infogram支持团队账号。

Jaspersoft

提供了灵活、可嵌入的商业智能工具，用户包括众多企业组织：高朋、冠群科技、美国农业部、爱立信、时代华纳有线电视、奥林匹克钢铁、内斯拉斯加大学和通用动力公司。

Jupyter

大家最喜欢的笔记应用程序都走了。jupyter是“IPython”剥离出来成为一个独立的软件包的语言无关的部分。虽然jupyter本身是用Python写的，该系统是模块化的。现在你可以有一个和iPython一样的界面，在笔记本电脑中方便共享代码，使得文档和数据可视化。至少已经支持50个语言的内核，包括Lisp，R，F #，Perl，Ruby，Scala等。事实上即使IPython本身也只是一个jupyter Python模块。通过REPL（读，评价，打印循环）语言内核通信是通过协议，类似于nrepl或Slime。很高兴看到这样一个有用的软件，得到了显著的非营利组织资助，以进一步发展，如并行执行和多用户笔记本应用。

Kafka

一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模网站中的所有动作流数据，在大数据领域，Kafka已经成为分布式发布订阅消息的事实标准。它的设计允许代理支持成千上万的客户在信息吞吐量告诉处理时，同时通过分布式提交日志保持耐久性。Kafka是通过在HDFS系统上保存单个日志文件，由于HDFS是一个分布式的存储系统，使数据的冗余拷贝，因此Kafka自身也是受到良好保护的。当消费者想读消息时，Kafka在中央日志中查找其偏移量并发送它们。因为消息没有被立即删除，增加消费者或重发历史信息不产生额外消耗。Kafka已经为能够每秒发送2百万个消息。

Kettle

这是一个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么，而不是你想怎么做。作为Pentaho的一个重要组成部分，现在在国内项目应用上逐渐增多。

Kibana

是一个使用Apache 开源协议的Elasticsearch 分析和搜索仪表板，可作为Logstash和ElasticSearch日志分析的 Web 接口，对日志进行高效的搜索、可视化、分析等各种操作。

Kinesis

可以构建用于处理或分析流数据的自定义应用程序，来满足特定需求。Amazon Kinesis Streams 每小时可从数十万种来源中连续捕获和存储数TB数据，如网站点击流、财务交易、社交媒体源、IT日志和定位追踪事件。

KNIME

全称是“康斯坦茨信息挖掘工具”（Konstanz Information Miner），是一个开源分析和报表平台。宣称“是任何数据科学家完美的工具箱，超过1000个模块，可运行数百个实例，全面的集成工具，以及先进的算法”。

Kylin

是一个开源的分布式分析引擎，提供了基于Hadoop的超大型数据集（TB/PB级别）的SQL接口以及多维度的OLAP分布式联机分析。最初由eBay开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。
Kylin是eBay开发的用于处理非常大量数据的OLAP分析系统，他使用标准的SQL语法，和很多数据分析产品很像。Kylin使用Hive和MR来构建立方体，Hive用作预链接，MR用作预聚合，HDFS用来储存构建立方体时的中间文件，HBase用来存储立方体，HBase的coprocessor（协处理器）用来响应查询。像大多数其他的分析应用一样，Kylin支持多种访问方法，包括JDBC，ODBC API进行编程访问以及REST API接口。

Leaflet

你是否专注于专业的大数据解决方案？无需饼图和条形图？Leafleft 基于Open Street Map数据，使用HTML5 / CSS3绘制互动式可视化图。您可以使用他们的扩展插件库添加热点图（heatmaps）和动画标记。 Leaflet 是开源和只有33 KB大小。

Lingual

是Cascading的高级扩展，为Hadoop提供了一个ANSI SQL接口极大地简化了应用程序的开发和集成。Lingual实现了连接现有的商业智能（BI）工具，优化了计算成本，加快了基于Hadoop的应用开发速度。

Logstash

一个应用程序日志、事件的传输、处理、管理和搜索的平台。可以用它来统一对应用程序日志进行收集管理，提供了Web接口用于查询和统计。

Lucene

基于Java的Lucene可以非常迅速地执行全文搜索。据官方网站声称，它在现代硬件上每小时能够检索超过150GB的数据，它拥有强大而高效的搜索算法。

Lumify

归Altamira科技公司（以国家安全技术而闻名）所有，这是一种开源大数据整合、分析和可视化平台。

Lustre

一个大规模的、安全可靠的、具备高可用性的集群文件系统，它是由SUN公司开发和维护的。该项目主要的目的就是开发下一代的集群文件系统，目前可以支持超过10000个节点，数以PB的数据存储量。

Mahout

目的是“为快速创建可扩展、高性能的机器学习应用程序而打造一个环境”，主要特点是为可伸缩的算法提供可扩展环境、面向Scala/Spark/H2O/Flink的新颖算法、Samsara（类似R的矢量数学环境），它还包括了用于在MapReduce上进行数据挖掘的众多算法。

Mesos

Mesos由加州大学伯克利分校的AMPLab首先开发的一款开源群集管理软件，后来转变成Apache孵化器中的一个项目。提供了高效、跨分布式应用程序和框架的资源隔离和共享，支持Hadoop、ElasticSearch、MPI、Hypertable、Spark、Storm 和Kafka等架构。对数据中心而言它就像一个单一的资源池，从物理或虚拟机器中抽离了CPU，内存，存储以及其它计算资源，很容易建立和有效运行具备容错性和弹性的分布式系统。

使用ZooKeeper实现容错复制，使用Linux Containers来隔离任务，支持多种资源计划分配（内存和CPU）。提供Java、Python和C++ APIs来开发新的并行应用程序，提供基于Web的用户界面来提查看集群状态。Mesos应用程序（框架）为群集资源协调两级调度机制，所以写一个Mesos应用程序对程序员来说感觉不像是熟悉的体验。虽然Mesos是新的项目，成长却很快。

MongoDB

是一个基于分布式文件存储的数据库。由C++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。介于关系数据库和非关系数据库之间的开源产品，是非关系数据库当中功能最丰富、最像关系数据库的产品。

n3-charts

N3-charts是一种基于AngularJS框架的工具。它建立在D3.js之上，帮助您创建简单的互动图表。 N3-charts是一种小型化的图表工具，不适用于大型项目。

Neo4j

是一个高性能的，NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。自称“世界上第一个和最好的图形数据库”，“速度最快、扩展性最佳的原生图形数据库”，“最大和最有活力的社区”。用户包括Telenor、Wazoku、ebay、必能宝（Pitney Bowes）、MigRaven、思乐（Schleich）和Glowbl等。

NiFi

Apache NiFi 是一个易于使用、功能强大而且可靠的数据处理和分发系统。Apache NiFi 是为数据流设计。它支持高度可配置的指示图的数据路由、转换和系统中介逻辑。Apache NiFi是由美国过国家安全局(NSA)贡献给Apache基金会的开源项目，其设计目标是自动化系统间的数据流。基于其工作流式的编程理念，NiFi非常易于使用，强大，可靠及高可配置。两个最重要的特性是其强大的用户界面及良好的数据回溯工具。NiFi的用户界面允许用户在浏览器中直观的理解并与数据流举行交互，更快速和安全的进行迭代。其数据回溯特性允许用户查看一个对象如何在系统间流转，回放以及可视化关键步骤之前之后发生的情况，包括大量复杂的图式转换，fork，join及其他操作等。另外，NiFi使用基于组件的扩展模型以为复杂的数据流快速增加功能，开箱即用的组件中处理文件系统的包括FTP，SFTP及HTTP等，同样也支持HDFS。NiFi获得来来自业界的一致好评，包括Hortonworks CEO，Leverage CTO及Prescient Edge首席系统架构师等。

NVD3

NVD3运行在d3.js之上, 它可建立可重用的图表组件。该项目的目标是保持所有的图表整洁和可定制性。 NVD3是d3.js之上的简单的接口，保持了d3.js的所有强大功能。 NVD3由Novus Partners前端工程师开发和使其保持了图表技术洞察力。

OpenRefine

OpenRefine（之前的GoogleRefine）现在是一款用来专门清洗混乱数据的开源工具。从而使你能够轻松和快速的探索有一定程度非结构化的大数据集。

OpenTSDB

opentsdb是建立在时间序列基础上的HBase数据库。它是专为分析从应用程序，移动设备，网络设备，和其他硬件设备收集的数据。它自定义HBase架构用于存储时间序列数据，被设计为支持快速聚合和最小的存储空间需求。通过使用HBase作为底层存储层，opentsdb很好的支持分布与系统可靠性的特点。用户不与HBase的直接互动；而数据写入系统是通过时间序列的守护进程（TSD）来管理，它可以方便的扩展用于需要高速处理数据量的应用场景。有一些预制连接器将数据发布到opentsdb，并且支持从Ruby，Python以及其他语言的客户端读取数据。opentsdb并不擅长交互式图形处理，但可以和第三方工具集成。如果你已经在使用HBase和想要一个简单的方法来存储事件数据，opentsdb也许正好适合你。

Pentaho

是世界上最流行的开源商务智能软件，以工作流为核心的、强调面向解决方案而非工具组件的、基于Java平台的商业智能(Business Intelligence)套件。包括一个web server平台和几个工具软件：报表、分析、图表、数据集成、数据挖掘等，可以说包括了商务智能的方方面面。

Pentaho BI

Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案（Solution）的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。

Phoenix

是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写，并且提供了一个客户端可嵌入的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase scan，并编排执行以生成标准的JDBC结果集。

Pig

是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、转换数据以及存储最终结果。Pig最大的作用就是为MapReduce框架实现了一套shell脚本，类似我们通常熟悉的SQL语句。

Plotly

Plotly帮助你在短短几分钟内，从简单的电子表格中开始创建漂亮的图表。Plotly已经为谷歌、美国空军和纽约大学等机构所使用。 Plotly是一个非常人性化的网络工具，让你在几分钟内启动。如果你的团队希望为JavaScript和Python等编程语言提供一个API接口的话，Plotly是一款非常人性化的工具。

Polymaps

Polymaps是一款地图可视化一个JavaScript工具库。 Polymaps使用SVG实现从国家到街道一级地理数据的可视化。您可以使用CSS格式来修改你的样式。Polymaps使用GeoJSON来解释地理数据。它是创建heatmap热点图的最好的工具之一。您创建的所有地图都可以变成动态图。

Presto

是一个开源的分布式SQL查询引擎，适用于交互式分析查询，可对250PB以上的数据进行快速地交互式分析。Presto的设计和编写是为了解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Facebook称Presto的性能比诸如Hive和MapReduce要好上10倍有多。

Processing.js

Processing.js是一个基于可视化编程语言的JavaScript库。作为一种面向Web的JavaScript库，Processing.js是您能够有效进行网页格式图表处理。这使得它成为了一种非常好交换式可视化工具。 Processing.js需要一个兼容HTML5的浏览器来实现这一功能。

PVFS

一个高性能、开源的并行文件系统，主要用于并行计算环境中的应用。PVFS特别为超大数量的客户端和服务器端所设计，它的模块化设计结构可轻松的添加新的硬件和算法支持。

QFS

Quantcast File System (QFS) 是一个高性能、容错好、分布式的文件系统，用于开发支持 MapReduce处理或者需要顺序读写大文件的应用。

RabbitMQ

一个受欢迎的消息代理系统，通常用于应用程序之间或者程序的不同组件之间通过消息来进行集成。RabbitMQ提供可靠的应用消息发送、易于使用、支持所有主流操作系统、支持大量开发者平台。

Ranger

安全一直是Hadoop的一个痛处。它不是说（像是经常报道）Hadoop是“不安全”或“不安全”。事实是，Hadoop有很多的安全功能，虽然这些安全功能都不太强大。我的意思是，每一个组件都有它自己的身份验证和授权实施，这与其他的平台没有集成。2015年5月，Hortonworks收购XA /安全，随后经过了改名后，我们有了Ranger。Ranger使得许多Hadoop的关键部件处在一个保护伞下，它允许你设置一个“策略”，把你的Hadoop安全绑定到到您现有的ACL基于活动目录的身份验证和授权体系下。Ranger给你一个地方管理Hadoop的访问控制，通过一个漂亮的页面来做管理、审计、加密。

RapidMiner

RapidMiner是一款相当出色的预测性分析工具，具有丰富数据挖掘分析和算法功能，常用于解决各种的商业关键问题，解决方案覆盖了各个领域，包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售业及快消行业、通讯业、以及公用事业等各个行业。

RAW

RAW弥补了很多工具在电子表格和矢量图形（SVG）之间的缺失环节。你的大数据可以来自MicrosoftExcel中，谷歌文档或是一个简单的逗号分隔的列表。它最厉害的功能是可以很容易地导出可视化结果，因为它和Adobe Illustrator，Sketch 和Inkscape是相容的。

Redis

是一个高性能的key-value存储系统，和Memcached类似，它支持存储的value类型相对更多，包括string（字符串）、list（链表）、set（集合）和zset（有序集合）。Redis的出现，很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用。

Samza

出自于LinkedIn，构建在Kafka之上的分布式流计算框架，是Apache顶级开源项目。可直接利用Kafka和Hadoop YARN提供容错、进程隔离以及安全、资源管理。

Scribe

Scribe是Facebook开源的日志收集系统，它能够从各种日志源上收集日志，存储到一个中央存储系统（可以是NFS，分布式文件系统等）上，以便于进行集中统计分析处理。

Shark

即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。Shark的特点就是快，完全兼容Hive，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

Sigma JS

Sigma JS 是交互式可视化工具库。由于使用了WebGL技术，你可以使用鼠标和触摸的方式来更新和变换图表。Sigma JS同时支持JSON和GEXF两种数据格式。这为它提供了大量的可用互动式插件。Sigma JS 专注于网页格式的网络图可视化。因此它在大数据网络可视化中非常有用。

SlamData

如果你正在寻找一个用户友好的工具，能理解最新流行的NoSQL数据的可视化工具，那么你应该看一看SlamData。SlamData允许您用熟悉的SQL语法来进行JSON数据的嵌套查询，不需要转换或语法改造。该技术的主要特点之一是它的连接器。从MongoDB，HBase，Cassandra和Apache的Spark，SlamData同大多数业界标准的外部数据源可以方便的进行整合，并进行数据转换和分析数据。你可能会问：“我不会有更好的数据池或数据仓库工具吗？请认清这是在NoSQL领域。

Solr

基于Apache Lucene，是一种高度可靠、高度扩展的企业搜索平台。知名用户包括eHarmony、西尔斯、StubHub、Zappos、百思买、AT&T、Instagram、Netflix、彭博社和Travelocity。

SpagoBI

Spago被市场分析师们称为“开源领袖”，它提供商业智能、中间件和质量保证软件，另外还提供相应的Java EE应用程序开发框架。

Spark

一个高速、通用大数据计算处理引擎。拥有Hadoop MapReduce所具有的优点，但不同的是Job的中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。它可以与Hadoop和Apache Mesos一起使用，也可以独立使用。
在Apache的大数据项目中，Spark是最火的一个，特别是像IBM这样的重量级贡献者的深入参与，使得Spark的发展和进步速度飞快。与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API，类似于R和Pandas的发现，使数据访问比原始RDD接口更简单。Spark的新发展中也有新的为建立可重复的机器学习的工作流程，可扩展和可优化的支持各种存储格式，更简单的接口来访问机器学习算法，改进的集群资源的监控和任务跟踪。spark-packages.org网站上有超过100个第三方贡献的链接库扩展，增加了许多有用的功能。

SparkSQL

前身是Shark，SparkSQL抛弃原有Shark的代码并汲取了一些优点，如内存列存储（In-Memory Columnar Storage）、Hive兼容性等。由于摆脱了对Hive的依赖性，SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便。

Spark Streaming

实现微批处理，目标是很方便的建立可扩展、容错的流应用，支持Java、Scala和Python，和Spark无缝集成。Spark Streaming可以读取数据HDFS，Flume，Kafka，Twitter和ZeroMQ，也可以读取自定义数据。

Splunk

是机器数据的引擎。使用 Splunk 可收集、索引和利用所有应用程序、服务器和设备（物理、虚拟和云中）生成的快速移动型计算机数据，从一个位置搜索并分析所有实时和历史数据

Statwing

Statwing将数据分析提高到了一个新台阶，它提供从漂亮的可视化到复杂的分析中的任何事情。NFL上的Statwing的博客相当酷。操作十分简单，你可以在5分钟之内学会。

Stinger

原来叫Tez，是下一代Hive，由Hortonworks主导开发，运行在YARN上的DAG计算框架。某些测试下，Stinger能提升10倍左右的性能，同时会让Hive支持更多的SQL。

Storm

Storm是Twitter开源的一个类似于Hadoop的实时数据处理框架。编程模型简单，显著地降低了实时处理的难度，也是当下最人气的流计算框架之一。与其他计算框架相比，Storm最大的优点是毫秒级低延时。
Storm是Apache项目中的一个分布式计算框架项目，主要应用于流式数据实时处理领域。他基于低延时交互模式理念，以应对复杂的事件处理需求。和Spark不同，Storm可以进行单点随机处理，而不仅仅是微批量任务，并且对内存的需求更低。在我的经验中，他对于流式数据处理更有优势，特别是当两个数据源之间的数据快速传输过程中，需要对数据进行快速处理的场景。Spark掩盖了很多Storm的光芒，但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache Kafka一起配合使用。

Tableau

Tableau 是一款企业级的大数据可视化工具。Tableau 可以让你轻松创建图形，表格和地图。它不仅提供了PC桌面版，还提供了服务器解决方案，可以让您在线生成可视化报告。服务器解决方案可以提供了云托管服务。Tableau的客户包括巴克莱银行，Pandora和Citrix等企业

Tajo

目的是在HDFS之上构建一个可靠的、支持关系型数据的分布式数据仓库系统，它的重点是提供低延迟、可扩展的ad-hoc查询和在线数据聚集，以及为更传统的ETL提供工具。

Talend Open Studio

是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次，其开源软件提供了数据整合功能。其用户包括美国国际集团（AIG）、康卡斯特、电子港湾、通用电气、三星、Ticketmaster和韦里逊等企业组织。

Terracotta

声称其BigMemory技术是“世界上首屈一指的内存中数据管理平台”，支持简单、可扩展、实时消息，声称在190个国家拥有210万开发人员，全球1000家企业部署了其软件。

Thrift

在2007年facebook提交Apache基金会将Thrift作为一个开源项目，对于当时的facebook来说创造thrift是为了解决facebook系统中各系统间大数据量的传输通信以及系统之间语言环境不同需要跨平台的特性。

Trident

是对Storm的更高一层的抽象，除了提供一套简单易用的流数据处理API之外，它以batch(一组tuples)为单位进行处理，这样一来，可以使得一些处理更简单和高效。

Vertica

基于列存储高性能和高可用性设计的数据库方案，由于对大规模并行处理（MPP）技术的支持，提供细粒度、可伸缩性和可用性的优势。每个节点完全独立运作，完全无共享架构，降低了共享资源的系统竞争。

Visual.ly

isual.ly是一个可视化的内容服务。它提供专门的大数据可视化的服务，用户包括了VISA，耐克，Twitter，福特和国家地理等。如果你想完全外包可视化文件给第三方。你可以使用非常简化的在线流程：你只需描述你的项目，服务团队将在项目的整个持续时间内和你在一起。 Visual.ly给您发送所有项目关键点的邮件通知，也将让你不断给出反馈。

Yahoo S4 （Simple Scalable Streaming System）

是一个分布式流计算平台，具备通用、分布式、可扩展的、容错、可插拔等特点，程序员可以很容易地开发处理连续无边界数据流（continuous unbounded streams of data）的应用。它的目标是填补复杂专有系统和面向批处理开源产品之间的空白，并提供高性能计算平台来解决并发处理系统的复杂度。