开发者社区大数据文章正文

【Spark Summit EU 2016】Sparklint:Spark监控，识别与优化利器

2017-02-14 3279

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Simon Whitear在Spark Summit EU 2016上的演讲，主要介绍了用于监控，识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张，往往会出现能力与任务不匹配的情况并造成资源竞争，为了使得Spark集群的效率得到提升，所以需要Sparklint这样的监控优化工具。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自 Simon Whitear在Spark Summit EU 2016上的演讲，主要介绍了用于监控，识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张，往往会出现能力与任务不匹配的情况并造成资源竞争，为了使得Spark集群的效率得到提升，所以需要Sparklint这样的监控优化工具。

fee3910ab3af797bbf4edc2f028a83ed851836f5

2d2c664e16ebb7179274319591aa8360205f0bc4

77f97b17fbde0278533f9e3152736fad5f2f680e

c87aefe0d683908d071737ce62351981cd2391c1

4bc39723b49db4738c15e5affc01dae04f3f19e9

dd1a05deb59f1213c257e7cebc82852be95c6bb2

f770500fd857ec6d6b4b35613f4cb865a7273852

3e1692dce411ae5a249642df3f657edb1a90fa9f

5059c69c23647748f8010f10dc60e9f62f38dd9c

2da69671aef346aeb4e6ae09bb813166904a091a

6eda54d9af8e8b924873d7f7c74d441b13dd5dbd

cc935d7c9f018f11dc843d1021e98efd8a60feec

e3dd00dacd5c152c65c11a6e0d81fc3afa73de99

bd8f243a1108c3b7fdfd833ff7beb6ef0011905f

d1fec7aa095fdb7fac2c7c2c31b24ef0bbc00048

d4536b6e7cbc70818a8e2341c068de903c062466

eb82d14d5362e1ed75b7e1128ba3a7457674458f

69757d74dbd4e9e74da57bc862d4f28155f319ee

bd4577ac6aca936f59fa8c27e236dcb156a74457

文章标签：

监控

分布式计算

Spark

大数据

MaxCompute

关键词：

apache spark监控

小猫吃鱼569

明哥的IT随笔

6月前

分布式计算资源调度监控

没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现

明哥的IT随笔

54 0 0

大数据启示录

3月前

分布式计算资源调度监控

spark 监控梳理

大数据启示录

72 0 0

dasein58

存储 SQL 分布式计算

如何用 Uber JVM Profiler 等可视化工具监控 Spark 应用程序？

　　关键要点　　持续可靠地运行 Spark 应用程序是一项具有挑战性的任务，而且需要一个良好的性能监控系统。　　- 在设计性能监控系统时有三个目标——收集服务器和应用程序指标、在时序数据库中存储指标，并提供用于数据可视化的仪表盘。　　Uber JVM Profiler 被用于监控 Spark 应用程序，用到的其他技术还有 InfluxDB（用于存储时序数据）和 Grafana（数据可视化工具）。性能监控系统可帮助 DevOps 团队有效地监控系统，用以满足应用程序的合规性和 SLA。

dasein58

233 0 0

开源大数据EMR

数据采集消息中间件存储

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍，本文探讨了一种数据管理架构，该架构可以在数据到达时，通过主动监控和分析来检测流式数据中损坏或不良的数据，并且不会造成瓶颈。

开源大数据EMR

2086 0 0

【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍

云hbase+spark

分布式计算监控 Spark

X-Pack Spark 监控指标详解

概述本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口打开Spark集群依次进入：数据库连接>UI访问>详细监控UI>Ganglia。

云hbase+spark

1447 0 0

阿里云E-MapReduce团队

分布式计算监控 NoSQL

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能，支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。本文以LogHub为数据源，收集ECS上的日志数据，通过Spark Streaming SQL进行聚合后，将流计算结果数据实时写入Tablestore，展示一个简单的日志监控场景。

阿里云E-MapReduce团队

1528 0 0

伯箫

监控 NoSQL 流计算

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

伯箫

5720 0 2

北斗云

JSON 资源调度分布式计算

基于Yarn API的Spark程序监控

一.简述通过对Yarn ResourceManager中运行程序的状态（RUNNING、KILLED、FAILED、FINISHED）以及ApplicationMaster中Application的Job执行时长超过批次时间的监控，来达到对Spark on Yarn程序的失败重启、超时重启等功能二.

北斗云

4789 0 0

知与谁同

消息中间件分布式计算监控

Spark Streaming场景应用- Spark Streaming计算模型及监控

知与谁同

2232 0 0

寒凝雪

机器学习/深度学习分布式计算大数据

Spark Summit EU重头戏：TensorFlow、结构化的流和GPU硬件加速

寒凝雪

1499 0 0

【Spark Summit EU 2016】Sparklint:Spark监控，识别与优化利器

热门文章

最新文章

相关课程

相关电子书