备案控制台

开发者社区

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 文章正文

2019年Apache Spark技术交流社区原创文章回顾

2020-01-09 1339

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

整理了这一年分享过的来自诸多专家的实践经验，希望2020年我们仍然能够互相支持，壮大Spark社区。

福利：转发本文到朋友圈，集赞30个截图发送至小编（小编微信见文末），送Spark社区定制毛线帽一顶，限量10顶先到先得。

感谢持续分享输出优质内容的阿里云EMR团队的王道远，余根茂，彭搏，郑锴，夏立，林武康，李呈祥，吴威，殳鑫鑫，宋军，关文选，孙大鹏，辛现银，江宇，陈强，陈龙，陶克路，姚舜扬，周克勇，苏昆辉；阿里云Tablestore存储服务技术专家朱晓然，王卓然；Databricks研发总监李潇；资深数据架构师祝威廉；entobit技术总监邓力；某游戏公司数据平台负责人李伟；eBay软件开发工程师李万雪；同盾科技工程师梁世威；感谢圈内的技术大佬浪尖，过往记忆，AI前线，vivo技术，滴滴技术提供的帮助。（排名不分先后）

浅谈 Spark 的多语言支持
Apache Spark3.0什么样？一文读懂Apache Spark最新技术发展与展望
基于Spark SQL实现对HDFS操作的实时监控报警
通过Spark SQL实时归档SLS数据
使用Spark SQL进行流式机器学习计算（上）
通过WebUI查看Structured Streaming作业统计信息
现代流式计算的基石：Google DataFlow
Spark Streaming 框架在 5G 中的应用
[是时候放弃 Spark Streaming, 转向 Structured Streaming 了
](https://developer.aliyun.com/article/690913)
使用Spark Streaming SQL基于时间窗口进行数据统计
Spark-StructuredStreaming checkpointLocation分析、优化耗时
使用Spark Streaming SQL进行PV/UV统计
通过Spark Streaming作业处理Kafka数据
通过Kafka Connect进行数据迁移
Spark内置图像数据源初探
【译】Spark-Alchemy：HyperLogLog的使用介绍
EMR Spark Runtime Filter性能优化
EMR Spark Relational Cache如何支持雪花模型中的关联匹配
EMR Spark Relational Cache的执行计划重写
1. EMR Spark Relational Cache 利用数据预组织加速查询
使用Relational Cache加速EMR Spark数据分析
使用EMR Spark Relational Cache跨集群同步数据
2019杭州云栖大会回顾之Spark Relational Cache实现亚秒级响应的交互式分析
[【译】数据湖正在成为新的数据仓库
](https://developer.aliyun.com/article/708051)
[深入剖析 Delta Lake：详解事务日志
](https://developer.aliyun.com/article/718093)
Delta元数据解析
开源生态的新发展：Apache Spark 3.0、Koala和Delta Lake
【译】Delta Lake 0.4.0 新特性演示：使用 Python API 就地转换与处理 Delta Lake 表
漫谈分布式计算框架
分布式快照算法: Chandy-Lamport
海量小文件的的根源
是时候改变你数仓的增量同步方案了
[【译】Spark NLP使用入门
](https://developer.aliyun.com/article/706952)
【译】使用Spark SQL 运行大规模基因组工作流
【译】用SQL统一所有：一种有效的、语法惯用的流和表管理方法
使用Apache Arrow助力PySpark数据处理
Spark on Kubernetes原生支持浅析
列式存储系列（一）C-Store
列式存储系列（二）: Vertica
Spark on Kubernetes 的现状与挑战
Koalas：让 pandas 轻松切换 Apache Spark
使用spark-redis组件访问云数据库Redis
玩转阿里云EMR三部曲-高级篇交互式查询及统一数据源
HIVE优化浅谈
HIVE TopN shuffle 原理
Kerberos使用OpenLDAP作为backend
在 Apache Spark 中利用 HyperLogLog 函数实现高级分析
[【译】Hadoop发生了什么？我们该如何做？
](https://yq.aliyun.com/articles/718414)
实时 OLAP 系统 Druid
Spark Operator浅析
Spark Codegen浅析
深入分析Spark UDF的性能
Spark整合Ray思路漫谈
Tablestore结合Spark的流批一体SQL实战
助力云上开源生态 - 阿里云开源大数据平台的发展
JindoFS概述：云原生的大数据计算存储分离方案
JindoFS解析 - 云上大数据高性能数据湖存储方案
[EMR 打造高效云原生数据分析引擎
](https://developer.aliyun.com/article/725861)
[ 5分钟迅速搭建云上Lambda大数据分析架构
](https://developer.aliyun.com/article/721502)
[如何在Spark中实现Count Distinct重聚合
](https://developer.aliyun.com/article/723652)
基于 Spark 和 TensorFlow 的机器学习实践
如何用Apache Spark和LightGBM构建机器学习模型来预测信用卡欺诈
【译】Apache Spark 数据建模之时间维度（一）
Spark 小文件合并优化实践
Apache Spark中国技术交流社区历次直播回顾（持续更新）

阿里巴巴开源大数据技术团队成立Apache Spark中国技术社区，定期推送精彩案例，技术专家直播，问答区数个Spark技术同学每日在线答疑，只为营造纯粹的Spark氛围，欢迎钉钉扫码加入！
对开源大数据和感兴趣的同学可以加小编微信（下图二维码，备注“进群”）进入技术交流微信群。

文章标签：

开源大数据平台 E-MapReduce

云原生大数据计算服务 MaxCompute

机器学习/深度学习

流计算

分布式计算

SQL

NoSQL

Spark

Apache

HIVE

存储

大数据

关键词：

Apache社区

apache spark Apache

Apache spark

apache spark社区

Apache技术交流

相关实践学习

数据湖构建DLF快速入门

本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析，介绍数据湖构建DLF产品的数据发现和数据探索功能。

快速掌握阿里云 E-MapReduce

E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上，利用开源大数据生态系统，包括 Hadoop、Spark、HBase，为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。本课程主要介绍阿里云 E-MapReduce 的使用方法。

阿里云E-MapReduce团队

目录

相关文章

疯狂的猿

|

3月前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

157 0 0

程序猿～厾罗

|

3月前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

70 0 0

我是廖志伟

|

6月前

|

分布式计算资源调度 Java

【Apache Spark】（二）

【Apache Spark】

我是廖志伟

49 0 0

一名技术开发者

|

6月前

|

分布式计算 Hadoop 大数据

大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

大数据Hadoop之——Apache Hudi 数据湖实战操作（Spark，Flink与Hudi整合）

一名技术开发者

312 2 2

xleesf

|

1月前

|

Apache 开发者

揭秘！Apache Hudi社区发展数据盘点

揭秘！Apache Hudi社区发展数据盘点

xleesf

30 0 0

xleesf

|

1月前

|

消息中间件分布式计算 Serverless

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

xleesf

51 2 2

晓之以理的喵~~

|

3月前

|

SQL 分布式计算数据处理

Apache Spark简介与历史发展

Apache Spark简介与历史发展

晓之以理的喵~~

79 0 0

Maynor

|

4月前

|

SQL 分布式计算 Apache

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

流数据湖平台Apache Paimon（六）集成Spark之DML插入数据

Maynor

76 0 0

Maynor

|

4月前

|

SQL 分布式计算 Apache

流数据湖平台Apache Paimon（五）集成 Spark 引擎

流数据湖平台Apache Paimon（五）集成 Spark 引擎

Maynor

72 0 0

程序员三木

|

4月前

|

SQL 分布式计算数据处理

[AIGC] Apache Spark 简介

[AIGC] Apache Spark 简介

程序员三木

29 0 0

大数据与机器学习

开源大数据平台 E-MapReduce

热门文章

最新文章

JindoFS解析 - 云上大数据高性能数据湖存储方案

JindoFS概述：云原生的大数据计算存储分离方案

在 Apache Spark 中利用 HyperLogLog 函数实现高级分析

从数砖开源 Delta Lake 说起

Apache Spark 3.0 将内置支持 GPU 调度

YARN中的CPU资源隔离-CGroups

使用Ranger对Hive数据进行脱敏

Apache Flink : Checkpoint 原理剖析与应用实践

使用Spark Streaming SQL基于时间窗口进行数据统计

YARN ResourceManager重启作业保留机制

通过阿里云向量检索 Milvus 版和通义千问快速构建基于专属知识库的问答系统

EMR Notebook 开启公测，提供交互式数据分析平台

Apache Hadoop入门指南：搭建分布式大数据处理平台

阿里云向量检索 Milvus 版开启公测，助力企业打造高质量 AI 服务

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

实用工具推荐：适用于 TypeScript 网络爬取的常用爬虫框架与库

1688API接口推荐：1688按图搜索拍立淘数据接口

【玩转幻兽帕鲁部署】阿里云幻兽帕鲁服务器搭建1分钟搞定：从入门到精通

轻喜到家基于 EMR-StarRocks 构建实时湖仓分析平台实践

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

Apache Flink 入门到实战 - Flink开源社区出品

大数据实时计算框架Spark快速入门

Apache Flink 入门

相关电子书

更多

Apache Flink技术进阶

Apache Spark: Cloud and On-Prem

Hybrid Cloud and Apache Spark

推荐镜像

更多

apache

packman

CPAN

下一篇

阿里云oss简介和使用流程