1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

Spark Streaming Crash 如何保证Exactly Once Semantics

这篇文章只是为了阐述Spark Streaming 意外Crash掉后,如何保证Exactly Once Semantics。本来这个是可以直接给出答案的,但是我还是啰嗦的讲了一些东西。

spark

Spark Streaming Direct Approach (No Receivers) 分析

这篇文章则重点会分析Direct Approach (No Receivers) 。

spark

(课程)基于Spark的机器学习经验

这篇内容基于我去年的一些感悟写的,但是今年才在Stuq 的微信群做的分享。从技术角度而言,对Spark的掌握和使用还是显得很手生的。但是今天一位做数据分析相关的朋友说,受这篇内容影响,他接受了Spark-Shell作为数据分析的工具,简单几个命令,轻松处理几千万行数据。于是我就重新整理了下这篇文章。

机器学习 spark

Spark Streaming 数据产生与导入相关的内存分析

这篇文章描述Spark Streaming 的Receiver在内存方面的表现。

spark

开源大数据周刊-第21期

本周关注:大数据教育、翻译行业应用,大数据与管理的关系、hadoop与mpp的关系、Facebook 60T+的spark应用

hadoop spark

Spark 实时计算整合案例

spark

开源大数据周刊-第20期

关注:对话Hadoop之父、E-MapReduce助力数据仓库建设、携程基于Hadoop大数据实践、一号店基于Hadoop的推荐系统、Hive性能优化

hadoop spark

开源大数据周刊-第19期

本周关注:马云谈云计算、大数据、人工智能未来三十年,E-MapReduce存储计算分离,真实的大数据故事,spark session及spark mmlib、presto+oss

hadoop spark

开源大数据周刊-第18期

本周关注:Hadoop集群的规划、大数据的‘位置数据’、电商Hadoop实战、Alluxio及Hadoop、spark、hive之间的关系。

hadoop spark

开源大数据周刊-第17期

本周关注:大数据投资、大数据数据官,数据科学,Structured Streaming、提高25倍性能的hive

hadoop spark Hive

离线计算平台系列之一

# 离线计算平台简介 在蚂蚁金服风控体系里面,有一个重要的环节就是离线仿真,在规则,模型上线之前,在离线的环境里面进行仿真验证,来对规则和模型进行效能的评估,避免人为因素造成不准确性从而造成的资损。起初为了达到这个目的,离线计算平台就这样孕育而生了,慢慢地整个离线平台覆盖了更多风控的业务,也慢慢变成目前Odps-Spark最大的用户,拥有的集群数目也是最大的。离线计算平台主要以Spark为基

安全与风控 大数据 阿里技术协会 spark scala

开源大数据周刊-第16期

spark2.0已经发布,本期整理了一些spark的好文(包括最佳实践、原理等)推荐给大家。

hadoop spark

开源大数据周刊-第15期

最近大数据的一些论断,如:中国大数据发展10大趋势5大挑战,数据在工业的崛起将重塑整个商业社会,涂子沛:都说收集数据很难,也许是思维错了。

hadoop spark

开源大数据周刊-第13期

本周周刊内容有:2016年6月份的hadoop Summit的见闻,数据可视化的理论实践,spark的一些精彩文章的推荐。

hadoop spark

开源大数据周刊-第12期

本周包括 全景洞察大数据全貌、数据分析师的职业规划、打造智能聊天机器人、E-Mapreduce的相关实践及动态、最近值得关注的大数据会议。

hadoop spark

Spark性能优化

Spark的性能分析和调优很有意思,今天再写一篇。主要话题是shuffle,当然也牵涉一些其他代码上的小把戏。 以前写过一篇文章,比较了几种不同场景的性能优化,包括portal的性能优化,web service的性能优化,还有Spark job的性能优化。Spark的性能优化有一些特殊的地方,比如

大数据 spark

The Apache Software Foundation Announces Apache® Zeppelin™ as a Top-Level Project

Apache Zeppelin顺利毕业,升级为顶级项目!

hadoop spark zeppelin visualization bigdata

147
GO