spark python编程指南_Learning PySpark - 2017.pdf @ pyspark实战指南 - 2017.pdf
image.png在本地构建数据密集型应用程序,并使用Python和Spark 2.0的强大功能进行大规模部署。Apache Spark是一个高效集群计算的开源框架,具有强大的数据并行和容错接口。本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统。首先,您将深入了解Spark 2.0体系结构以及如何为Spark设置Python环境。您将熟悉PySpark中可用的模块。您将学习
image.png
在本地构建数据密集型应用程序,并使用Python和Spark 2.0的强大功能进行大规模部署。
Apache Spark是一个高效集群计算的开源框架,具有强大的数据并行和容错接口。本书将向您展示如何利用Python的强大功能并将其用于Spark生态系统。首先,您将深入了解Spark 2.0体系结构以及如何为Spark设置Python环境。
您将熟悉PySpark中可用的模块。您将学习如何使用RDD和DataFrame抽象数据并了解PySpark的流功能。此外,您将全面了解使用ML和MLlib的PySpark的机器学习功能,使用GraphFrames的图形处理以及使用Blaze的多语言持久性。最后,您将学习如何使用spark-submit命令将应用程序部署到云。
在本书的最后,您将对Spark Python API及其如何用于构建数据密集型应用程序有一个深入的了解。
本书采用了非常全面的循序渐进的方法,因此您可以了解Spark生态系统如何与Python一起使用来开发高效,可扩展的解决方案。每一章都是独立的,以非常易于理解的方式编写,重点关注每个概念的方法和原理。
关于本书
了解为何以及如何有效地使用Python处理数据并在Apache Spark 2.0中构建机器学习模型
开发和部署高效,可扩展的实时Spark解决方案
通过本跳转入门指南,将您对Spark的使用理解提升到新的水平
参考资料
你会学到什么
了解Apache Spark和Spark 2.0架构
使用Spark SQL构建Spark DataFrames并与之交互
了解如何分别使用GraphFrames和TensorFrame解决图形和深度学习问题
读取,转换和理解数据并使用它来训练机器学习模型
使用MLlib和ML构建机器学习模型
了解如何使用spark-submit以编程方式提交应用程序
将本地构建的应用程序部署到群集
面向读者
如果您是想要了解Apache Spark 2.0生态系统的Python开发人员,那么本书适合您。对Python的深刻理解有望在本书中发挥最大作用。熟悉Spark会很有用,但不是强制性的
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)