【Spark Summit East 2017】Debugging PySpark

简介: 本讲义出自Holden Karau在Spark Summit East 2017上的演讲,主要介绍了如何对于Spark程序进行调试Debug,并介绍了登录时的对于Spark所支持的各种语言的不同选项以及常见的错误和如何对这些错误进行检测。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps


本讲义出自Holden Karau在Spark Summit East 2017上的演讲,主要介绍了如何对于Spark程序进行调试Debug,并介绍了登录时的对于Spark所支持的各种语言的不同选项以及常见的错误和如何对这些错误进行检测。


4affea7ed7b0faec206c4d180e222b79580045bc

7a15ee38a68764bd81a261c3ab06cbddbeee1163

883901fcd673cd0df3f375e4f45d355d2aaaf85b

3fe93e936bc5ae2018904d4834165df714d48905

09a6b1358127d0ad525bc54cec00226f49d4e9c1

cf3f0a2776e4ddf451b357101cd501c89faad9a2

b58e0c1294489184200897d28f4c1ff6822f713b

19b973a934e4668788c61e898780aa51da86f918

fdd847ca568d4879673fa2e064cff98efd34cf3a

030794bb8f45511fc484b8d7309cfeac1997a8be

efb869827398898e1442d741d98b1a892de090a7

ded211e5abaf9b4845c14b7bd3d1a8c0630dd511

1b6afde2afb465385c3051d554d67a23f6374684

6ea7076ee60b1dacbff1f2295c7c4f241748baf5

1aaee616eacba8f93a54cbe0392782901f18caaa

7679bada469b4964c14ab3d91486b0ceeb025ed6

e38d2eea4b4adf07e9bbe76e4426d1b41c3e2755

d8ab85c8edac4e318dc89febf0a95291584a6dbe

9b3649ce94e9710734d83707fb5f43c2b2c74d45

ff2a62a47d0c5fcdd355104e1d434b046f3c6244

f0d062fc7025bf344b4f3e83fdcc4f3f0f2ce66d

3abb086776650d5660dceb145d332df77139b1eb

53f49b494164a18d66618ceffd15badee2a9572d

d4717ace2d535e715472dfb4ff2f8e135608331e

8b10e74bb1363760dbbdd9c8c0b631498e66366b

4e00100e5f93c83b9fdf5538772c61123790d0d0

f6eab93d24e5046d558fe0cefbdd47ffad401307

3a4cdca6216495c8f16d7d5b70bf60ee457f455a

33a2c55b9a5b8bef39306144091cb808423033fe


fecd5bbc560a896b09032c11562c87b8ce454792

27a55d85656f1624f6e8ac092bf6ddf127087755

bc1e93a86edc9142924d67e67a44856ec419c012

0b34b31e68f4262ac8c49307b8b8e44ba37db0f3

6d63e4a21263ba8edb6840ed73d86786d8ffa44b

9819ca2cb6b7ca2692963337c772105eb52493df

86d847f6a708f8b86060ed67e6f28f8eadcc4215

410b21d7e2d11fa9224e16cbb34d3742316a38d8

530959b2d27dbaca1d7732d30a1a742d0b37baee

d624dbb990055e6e788a7b06b8ca445bbbfbc23d

c951f48a6d4e18a390a1ef9ce655c63d07edf14c

ef2c0c8ecc90d93921c22e661506b763e4e00247

d61051cda722638de9efa21d8b1c2725c444def9

82e0bf10663fe94722963e131dee57e439445b17

332493dd8c3585fb8dc792fa9eea73fbd9de8487

相关文章
|
分布式计算 算法 大数据
【Spark Summit East 2017】Spark自动调谐
本讲义出自Lawrence Spracklen 在Spark Summit East 2017上的演讲,主要介绍了Lawrence Spracklen 与团队研发的算法,介绍了如何充分利用被分析的数据的大小,并分享了在分析操作中如何规划流,集群规模,配置和实时利用率以及配置使得Spark的工作性能达到峰值。
1868 0
|
大数据 Apache 分布式计算
【Spark Summit East 2017】Spark + Flashblade
本讲义出自Brian Gold在Spark Summit East 2017上的演讲,现代基础设施和应用程序会产生大量的日志和遥测数据,Pure Storage能从工程台、制造伙伴和测试站的运行的存储系统获取超过5PB第一手日志数据,演讲中介绍了Pure Storage公司从扩展数据仓库和利用Apache Spark的功能满足分析需求的过程中吸取的经验教训。
2049 0
|
存储 分布式计算 安全
【Spark Summit East 2017】Kerberizing Spark
本讲义出自Abel Rincon与Jorge Lopez-Malla在Spark Summit East 2017上的演讲,主要介绍了Spark作为主流的大规模并行处理框架,HDFS作为最受欢迎的大数据存储技术,两者之间的结合通常是大数据的常见用例,本讲义分享了如何使得两种技术同处于安全的环境中,另外随着BI技术适应大数据环境,要求几个用户能够同时与集群进行交互,如何保证环境的安全也是一个挑战。
1690 0
|
分布式计算 算法 大数据
【Spark Summit East 2017】Cornami提升Spark性能与速度
本讲义出自Paul Master在Spark Summit East 2017上的演讲,主要介绍了CORNAMI公司的TruStream技术,一个以高密度处理器核心计算内存结构的新架构。演讲中介绍了如何将Spark集成到TruStream计算结构中来对于一般的Spark任务提供更高性能的计算处理能力,并介绍了目前在多服务器集群上构建的应用上如何使用TruStream与Spark提高算法速度,增加功能并且降低成本以及延迟。
2137 0
|
数据采集 分布式计算 大数据
【Spark Summit East 2017】Sparkler:Spark上的爬虫
本讲义出自Karanjeet Singh与Thamme Gowda Narayanaswamy在Spark Summit East 2017上的演讲,主要介绍了利用了分布式计算和信息检索领域的最新发展技术并且组合了像Spark, Kafka, Lucene/Solr, Tika, 和Felix等各种Apache项目的爬虫程序——Sparkler,Sparkler是一个具有高性能、高扩展性以及高性能的网络爬虫程序,并且是运行在Spark上Apache Nutch的进化。
2842 0
|
分布式计算 Apache Spark
【Spark Summit East 2017】Apache Toree:Spark的一种Jupyter内核
本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲,主要介绍了Toree的设计思想,Toree如何与Jupyter生态系统交互,以及用户如何借助强大的插件系统来扩展Apache Toree的功能。
2423 0
|
分布式计算 大数据 流计算
【Spark Summit East 2017】为Walmart Search学习使用Streaming和DataFrames
本讲义出自Nirmal Sharma与Yan Zheng在Spark Summit East 2017上的演讲,主要介绍了Walmart使用Spark Streaming和DataFrames构建的搜索产品的情况,目前已经能够成功地使用多个微型批处理spark streaming管道对于可获取的产品信息进行近乎实时的更新,并分享了仅依靠Spark Data Frames建立的可伸缩的异常检测框架,该框架能够用于检测异常搜索信息。
1695 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Drizzle——Spark的低延迟执行
本讲义出自Shivaram Venkataraman在Spark Summit East 2017上的演讲,主要介绍了Spark的低延迟执行引擎——Drizzle,其设计目的在于对流进行处理以及进行迭代工作。
2385 0
|
分布式计算 大数据 Spark
【Spark Summit East 2017】Spark化数据引擎
本讲义出自Rohan Sharma在Spark Summit East 2017上的演讲,主要介绍了Netflix的大数据处理生态系统以及Spark在该平台发挥的作用,并讨论了Netflix使用的数据流以及数据管道架构以及Spark如何帮助Netflix在数据处理过程中提升效率,最后还分享了一些关于使用Spark的数据仓库以及分析案例。
1997 0
|
分布式计算 大数据 Java
【Spark Summit East 2017】使用Spark进行时间序列分析
本讲义出自Simon Ouellette在Spark Summit East 2017上的演讲,主要介绍了在Spark上与时间序列数据进行交互的Scala / Java / Python库——spark-timeseries,演讲中分享了spark-timeseries的总体设计,目前实现的功能,并将提供一些用法示例。
9014 0