spark python编程指南_Learning PySpark - 2017.pdf @ pyspark实战指南 - 2017.pdf

image.png在本地构建数据密集型应用程序，并使用Python和Spark 2.0的强大功能进行大规模部署。Apache Spark是一个高效集群计算的开源框架，具有强大的数据并行和容错接口。本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统。首先，您将深入了解Spark 2.0体系结构以及如何为Spark设置Python环境。您将熟悉PySpark中可用的模块。您将学习

weixin_39862871

383人浏览 · 2020-12-03 16:48:55

weixin_39862871 · 2020-12-03 16:48:55 发布

image.png

在本地构建数据密集型应用程序，并使用Python和Spark 2.0的强大功能进行大规模部署。

Apache Spark是一个高效集群计算的开源框架，具有强大的数据并行和容错接口。本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统。首先，您将深入了解Spark 2.0体系结构以及如何为Spark设置Python环境。

您将熟悉PySpark中可用的模块。您将学习如何使用RDD和DataFrame抽象数据并了解PySpark的流功能。此外，您将全面了解使用ML和MLlib的PySpark的机器学习功能，使用GraphFrames的图形处理以及使用Blaze的多语言持久性。最后，您将学习如何使用spark-submit命令将应用程序部署到云。

在本书的最后，您将对Spark Python API及其如何用于构建数据密集型应用程序有一个深入的了解。

本书采用了非常全面的循序渐进的方法，因此您可以了解Spark生态系统如何与Python一起使用来开发高效，可扩展的解决方案。每一章都是独立的，以非常易于理解的方式编写，重点关注每个概念的方法和原理。

关于本书

了解为何以及如何有效地使用Python处理数据并在Apache Spark 2.0中构建机器学习模型

开发和部署高效，可扩展的实时Spark解决方案

通过本跳转入门指南，将您对Spark的使用理解提升到新的水平

参考资料

你会学到什么

了解Apache Spark和Spark 2.0架构

使用Spark SQL构建Spark DataFrames并与之交互

了解如何分别使用GraphFrames和TensorFrame解决图形和深度学习问题

读取，转换和理解数据并使用它来训练机器学习模型