【Spark Summit EU 2016】Sparklint:Spark监控,识别与优化利器

简介: 本讲义出自Simon Whitear在Spark Summit EU 2016上的演讲,主要介绍了用于监控,识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张,往往会出现能力与任务不匹配的情况并造成资源竞争,为了使得Spark集群的效率得到提升,所以需要Sparklint这样的监控优化工具。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自 Simon Whitear在Spark Summit EU 2016上的演讲,主要介绍了用于监控,识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张,往往会出现能力与任务不匹配的情况并造成资源竞争,为了使得Spark集群的效率得到提升,所以需要Sparklint这样的监控优化工具。


fee3910ab3af797bbf4edc2f028a83ed851836f5

2d2c664e16ebb7179274319591aa8360205f0bc4

77f97b17fbde0278533f9e3152736fad5f2f680e

c87aefe0d683908d071737ce62351981cd2391c1

4bc39723b49db4738c15e5affc01dae04f3f19e9

dd1a05deb59f1213c257e7cebc82852be95c6bb2

f770500fd857ec6d6b4b35613f4cb865a7273852

3e1692dce411ae5a249642df3f657edb1a90fa9f

5059c69c23647748f8010f10dc60e9f62f38dd9c

2da69671aef346aeb4e6ae09bb813166904a091a

6eda54d9af8e8b924873d7f7c74d441b13dd5dbd

cc935d7c9f018f11dc843d1021e98efd8a60feec

e3dd00dacd5c152c65c11a6e0d81fc3afa73de99

bd8f243a1108c3b7fdfd833ff7beb6ef0011905f

d1fec7aa095fdb7fac2c7c2c31b24ef0bbc00048

d4536b6e7cbc70818a8e2341c068de903c062466

eb82d14d5362e1ed75b7e1128ba3a7457674458f

69757d74dbd4e9e74da57bc862d4f28155f319ee

bd4577ac6aca936f59fa8c27e236dcb156a74457

相关文章
|
6月前
|
分布式计算 资源调度 监控
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
没有监控的流处理作业与茫茫大海中的裸泳无异 - 附 flink 与 spark 作业监控脚本实现
|
3月前
|
分布式计算 资源调度 监控
spark 监控梳理
spark 监控梳理
spark 监控梳理
|
存储 SQL 分布式计算
如何用 Uber JVM Profiler 等可视化工具监控 Spark 应用程序?
  关键要点   持续可靠地运行 Spark 应用程序是一项具有挑战性的任务,而且需要一个良好的性能监控系统。   - 在设计性能监控系统时有三个目标——收集服务器和应用程序指标、在时序数据库中存储指标,并提供用于数据可视化的仪表盘。   Uber JVM Profiler 被用于监控 Spark 应用程序,用到的其他技术还有 InfluxDB(用于存储时序数据)和 Grafana(数据可视化工具)。性能监控系统可帮助 DevOps 团队有效地监控系统,用以满足应用程序的合规性和 SLA。
233 0
|
数据采集 消息中间件 存储
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
本文主要对Databricks如何使用Spark Streaming和Delta Lake对流式数据进行数据质量监控的方法和架构进行了介绍,本文探讨了一种数据管理架构,该架构可以在数据到达时,通过主动监控和分析来检测流式数据中损坏或不良的数据,并且不会造成瓶颈。
【译】Databricks使用Spark Streaming和Delta Lake对流式数据进行数据质量监控介绍
|
分布式计算 监控 Spark
X-Pack Spark 监控指标详解
概述 本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口 打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。
1447 0
|
分布式计算 监控 NoSQL
海量监控日志基于EMR Spark Streaming SQL进行实时聚合
从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。
|
监控 NoSQL 流计算
海量监控日志基于EMR Spark Streaming SQL进行实时聚合
从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。
5720 0
|
JSON 资源调度 分布式计算
基于Yarn API的Spark程序监控
一.简述 通过对Yarn ResourceManager中运行程序的状态(RUNNING、KILLED、FAILED、FINISHED)以及ApplicationMaster中Application的Job执行时长超过批次时间的监控,来达到对Spark on Yarn程序的失败重启、超时重启等功能 二.
4789 0
|
机器学习/深度学习 分布式计算 大数据