spark源码阅读——搭建和源码工程师一样的开发环境
阅读好的开源项目是最好的学习code的方法,在一个大型项目中会涉及到软件工程的方方面面。项目代码作为最终的落地物质,其中必然会留下很多顶尖工程师、架构师、设计团队思考的痕迹;如果从这个层面去看一个开源项目,其实至少包括三个方面:1)这个项目是如何架构的,会用到哪些关键技术2)实现这些设计是怎么落到code层面,利用了哪些技巧3)利用了哪些好的库和管理的工具方法理念学习...
阅读好的开源项目是最好的学习code的方法,在一个大型项目中会涉及到软件工程的方方面面。
项目代码作为最终的落地物质,其中必然会留下很多顶尖工程师、架构师、设计团队思考的痕迹;
如果从这个层面去看一个开源项目,其实至少包括三个方面:
1)这个项目是如何架构的,会用到哪些关键技术
2)实现这些设计是怎么落到code层面,利用了哪些技巧
3)利用了哪些好的库和管理的工具方法理念
学习一个开源项目可以从代码历史变更维度去追溯,项目是如何一步一步从雏形演进过来,有利于更深入去理解设计者的思路
从架构层面看开源项目:
1)包括哪些组件
2)利用了哪些外部库
3)搭建了哪些架子把组建创构起来
4)有哪些流程线让这个软件可以动起来
以上是最近阅读学习spark源码的一些思路总结;理解这个项目是为了解决什么问题,它是通过什么样解决思路去解决这个问题
当你认识清楚这个问题,知道它的难点在哪;站在解决问题的第一视角时思考该如何解决,结合你的直觉方案去思考,
去认识提出自己的解决方案和思路,然后看现成的解决方案,看别人的解决思路;刨根究底的结合源码看他们是怎么把想法
转成code,怎么去管理这个复杂项目工程时候,你会发现问题很难很复杂,但是你是可以去构着它的。
spark是为了解决数据量的计算问题,数据量大所以需要多机处理分而治之
1)多机之间如何进行数据消息传递——通过netty实现私有通讯协议
2)机器要能统一调度管理分配资源——clusterMaster集群管理、work资源上报、Application资源申请、excutor物理资源申请
3)具体计算怎么实现——内存分配管理、RDD各种操作、ShuffleStage、ResultMap、DAGSchedule构建、Taskchedule构建
4)兼容多种部署方式——deploy
5)这么多任务异常怎么处理、怎么监控——Metric、webUI、sparklistenBus
6)速度优化——kvStore、钨存储
7)更上层的应用支持——sparkSQL、Mlib、Stream、graphx、sparkPython、sparkR
这些都是静态的模块,具体的动线流程是如何,一定得要结合代码跑起来才可以更好去了解,所以我们需要去搭建spark开发工程师一样的开发环境。可以在和他们一样的环境下去开发改动这些代码,验证和测试我们的推测猜想。
spark是基于github做代码持续上线管理,通过mvn和sbt做项目依赖管理;应该是迭代开发持续上线模式,所以有很多的测试例子。我们读代码的思路:
1)看书、blog看前人是怎么讲的,方面我们对spark实现思路有个全局认识
2)结合别人源码注释按动线标注阅读代码,在心里有spark工作机理
3)结合代码的Test例子去解读每一模块是如何实现,活该如何用,推测当时实现思路
4)把某个代码模块拿出来,写自己的应用例子
5)在spark项目里面优化或者新增某些功能,然后重新编译上线,测试spark是否能够执行我们个性化定制功能
接下来就讲讲我们怎么去搭建和spark源码开发工程师一样的开发环境
A.下载源码:git clone https://github.com/apache/spark.git -b branch-2.4
B.编译源码:
./build/mvn -DskipTests clean package
C.打开IntelljIdea:File——openproject——mvn
D.等待依赖下载完,项目代码无报错标志
E.开始测试每个模块下的Test
F.可以把assembly/target/scala-2.11/jars里面编译好的jar包拿出来放到新工程中测试每个jar中 实现的功能,看你是否了解
G.在源码中新增功能或者优化功能,重新编译spark,部署到线上看新功能是否能够执行
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)