zeppelin on yarn 搭建遇到的问题总结

搭建zeppelin还是非常坎坷的，从最开始git clone源码下来打包，就会等上半天，弹个包下不来之类的报错。。可以说是很扎心了，，切入正题：1、spark 2.0及以上的版本，配置yarn的时候，需要的配置：2、配置interpreter的时候，依赖的添加如spark 需要添加你的机器hadoop版本：hive则需要加上hado...

Deegue

14848人浏览 · 2018-03-30 11:16:33

Deegue · 2018-03-30 11:16:33 发布

搭建zeppelin还是非常坎坷的，从最开始git clone源码下来打包，就会等上半天，弹个包下不来之类的报错。。

可以说是很扎心了，，切入正题：

1、spark 2.0及以上的版本，配置yarn的时候，需要的配置：

2、配置interpreter的时候，依赖的添加

如spark 需要添加你的机器hadoop版本：

hive则需要加上hadoop版本和hive-jdbc,hive-service版本：

这边的依赖，可以是添加本地路径，也可以像上面这样自动下载。

3、interpreter中的localRepo

不难发现，每个interpreter中都有这么一个位置，去对应目录下查看，可能会找不到。

这个文件夹，只有在执行任务，使用了这个interpreter之后，才会自动创建，里面存了需要用的各种jar，包括添加的依赖：

4、hive运行很慢

执行一个简单的show databases，就能用将近3分钟的时间。。

这段时间，花了好多时间研究这个问题，，

首先看了hive和zeppelin的日志，发现zeppelin的日志提交任务->接收结果并没有什么异常，

hive日志中，add operation get_Columns和get_Schemas之间占用了相当多的时间。。主要就是这边的问题了：

然后去看了hive的add operation的源码，，自然是看不出有什么不对劲

然后去看zeppelin 调用jdbc interpreter时候的源码，简单的分析一下：

再去搭了新环境 hadoop2.7.3 hive2.1.1 jdk1.8 mysql5.6.39

各种调通之后，在zeppelin上新建了一个interpreter hive2，指向了自己搭的新环境

成功解决。

AtomGit 开源协作平台测评赛

瓜分20万奖金获得内推名额丰厚实物奖励易参与易上手

更多推荐

cover

C#联合Halcon深度学习源代码分享1 预处理图像2图像识别测试3误差分析（含导入步骤文档，含中文注释）（附源码链接）

开放原子开发者工作坊

Git基础命令学习

git基础命令学习笔记git init 命令目录变成 Git 可以管理的仓库git add 把文件添加到仓库(可多次add不同的文件)git commit 把文件提交到仓库git satus 命令查看状态，可以让我们时刻掌握仓库当前的状态git diff可以看到指定文件的修改内容

开放原子开发者工作坊

cover

SpringBoot01:Hello,World

开放原子开发者工作坊

所有评论(0)

查看更多评论

Deegue

已为社区贡献2条内容