使用Zeppelin代替spark-shell

简介:

部署

把下载的bin-all.tgz上传到服务器,解压放到自己常用的目录下。
为了使用spark.read.jdbc功能,需要上传一份mysql connector jar到lib/interpreter下,否则spark执行会报错。

启动

使用bin/zeppelin-daemon.sh start启动后台服务
然后使用bin/zeppelin.sh启动web端

这样在服务器的8080端口就可以看见应用界面

设置

我们需要设置到spark的连接,通过右上方的下拉菜单“Interpreter”进入适配器管理界面,设置好到spark集群的连接,然后把这个适配器重启一下。

使用

通过“Create new note”建立一个便签,便签的执行单位是段,每段的右上角都有执行、展示隐藏代码、展示隐藏输出,更多操作的工具条。这里每段的代码就和写在spark-shell里面的一样。

最后输出的时候需要注意,为了使用zeppelin的数据可视化功能,推荐以table形式输出,同时组织好输出数据的关系,以便直接展示。现在数据可视化的功能还不是太强大,只可以在settings里面调整数据展示的逻辑。

最后效果展示,这是某系统中各个地点的重量级别发生次数的分布图。

图示略有交互性,可以选择展示的和隐藏的groups,通过图示上方的小圆圈选中与否控制,为了保护数据隐私,这里不作展示。

安全

zeppelin默认任何人都可以访问,这样太不安全了,所以需要加上一点保障,一方面是用户登录权限,一方面是文档的读写权限。
官方的说明页面在此:登录权限,文档权限
首先在zeppelin/conf目录下,把zeppelin-site.xml.template复制成zeppelin-site.xml,把shiro.ini.template复制成shiro.ini。
修改zeppelin-site.xml,把zeppelin.anonymous.allowed的值改成false

保存退出。
然后修改shiro.ini。在[users]段中,按照登录名=密码,角色1,角色2,...角色N的格式添加登录账户,保存退出。
终端里面执行脚本,重启后台服务:
zeppelin-daemon.sh restart
然后刷新网页就可以看到需要登录了。
文档的权限是进入zeppeline后在文档的编辑界面上设置的,参见官方文档的图示,非常简单。

目录
相关文章
|
7月前
|
SQL 分布式计算 数据挖掘
Zeppelin调试Spark程序
Zeppelin调试Spark程序
51 0
|
分布式计算 数据可视化 IDE
5月21日 Spark 社区直播【Spark on Zeppelin】
Apache Zeppelin 是一个交互式的大数据开发Notebook,从一开始就是为Spark定制的。Zeppelin Notebook的开发环境与传统IDE开发环境相比有几大优势:不需要编译Jar,环境配置简单,交互式开发,数据结果可视化等等。 本次直播将会介绍Spark on Zeppelin的一些基本使用方式以及应用场景。
5月21日 Spark 社区直播【Spark on Zeppelin】
|
分布式计算 Shell MaxCompute
【公共云支持】MaxCompute Spark支持交互式Zeppelin
【公共云支持】MaxCompute Spark支持交互式Zeppelin
|
分布式计算 Hadoop Apache
【Hadoop Summit Tokyo 2016】使Apache Zeppelin与Spark赋能企业数据科学
本讲义出自Bikas Saha在Hadoop Summit Tokyo 2016上的演讲,主要分享了如何使得数据科学在企业中变得容易实现以及目前企业中实现数据科学所面临的的挑战,并分享了在企业中如何使用Apache Zeppelin以及企业中数据科学的未来的发展规划。
1771 0
|
SQL 分布式计算 大数据
Spark-zeppelin-大数据可视化分析
官网介绍 Multi-purpose Notebook The Notebook is the place for all your needs Data Ingestion Data Discovery Data Analytics...
2359 0
|
分布式计算 Java Apache
Zeppelin对Spark进行交互式数据查询和分析
 Zeppelin是一个Web笔记形式的交互式数据查询分析工具,可以在线用scala和SQL对数据进行查询分析并生成报表。Zeppelin的后台数据引擎可以是Spark(目前只有Spark),开发者可以通过实现更多的解释器来为Zeppelin添加数据引擎。
1973 0
|
SQL 数据可视化 大数据
Spark-zeppelin大数据可视化导入Mysql
Zeppelin是基于spark的数据可视化方案。支持scala语言,任何在spark上运行的job都可以在此平台上运行,此外支持对表数据的可视化。对数据源的可视化可以通过interpreter进行扩展,比如github中就有支持MySQL的interpreter。
1419 0
|
Web App开发 分布式计算 数据可视化
Spark-数据分析可视化Zeppelin
官网介绍 Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, hive, tajo等,原生支持scala, Java, shell, markdown等。
2109 0