阿里云E-MapReduce团队 + 关注

10月17日Spark社区直播【Tablestore Spark Streaming Connector -- 海量结构化数据的实时计算和处理】

发布时间:2019-10-14 16:55:18 浏览:94 评论:0

本次直播我们邀请了Tablestore存储服务技术专家 朱晓然 ,为大家详细介绍如何基于Tablestore的CDC技术,将大表内实时数据更新对接Spark Streaming来实现数据的实时计算和处理。

Apache Spark中国技术社区

Apache Spark中国技术交流社区历次直播回顾(持续更新)

发布时间:2019-10-09 15:23:06 浏览:360 评论:0

Apache Spark中国技术交流社区,由阿里巴巴开源大数据技术团队成立,持续输出spark相关技术直播、原创文章、精品翻译,钉钉群内千人交流学习,欢迎加入。钉钉团队群号:HPRX8117。更多视频和ppt资料请入群获得。

Apache Spark中国技术社区

实时 OLAP 系统 Druid

发布时间:2019-09-20 18:52:29 浏览:705 评论 :0

整体来看,Druid 算是一个优秀的实时 OLAP 系统,虽然有一些地方设计的并不是尽善尽美,但是瑕不掩瑜。这篇文章简单介绍一些 Druid 的整体情况,希望可以给使用 Druid 的同学做一些参考。下一篇文章将会介绍一下我们过去一年基于 Druid 的实践情况以及一些踩过的坑。

Apache Spark中国技术社区

Virgin Hyperloop One如何使用Koalas将处理时间从几小时降到几分钟--无缝的将pandas切换成Apache Spark指南

发布时间:2019-09-01 18:27:26 浏览:670 评论 :0

Virgin Hyperloop One(超级高铁公司)是一家从事超级高铁研究的公司,致力于能让高铁达到飞机的速度并且拥有更低的成本。为了能够制造一个商业的系统,我们需要收集并且分析非常大量的各种不同的数据,包括各种运行测试数据,多种模拟数据,技术设施数据,甚至社会经济数据等等。

云栖社区 深度学习 分布式 机器学习 性能 Apache 测试 spark DataFrame pandas 脚本 EMR timestamp

玩转阿里云EMR三部曲-高级篇 交互式查询及统一数据源

发布时间:2019-08-28 16:54:15 浏览:763 评论 :0

利用阿里云EMR生态定制化集群,实现数据仓库满足商业/运营的查询需求,并提供横向扩展提升性能的空间,结合多样服务达到数据交互查询及统一数据源下的最佳成本控制。

nginx 安全与风控 数据存储与数据库 移动开发与客户端 大数据 架构 MongoDB 域名 mysql 集群 控制台 spark 运营 EMR 磁盘

玩转阿里云EMR三部曲-中级篇 集成自有服务

发布时间:2019-08-28 16:37:47 浏览:2930 评论 :0

利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

安全与风控 移动开发与客户端 大数据 架构 OSS 高并发 配置 集群 弹性伸缩 钉钉 spark solr 脚本 EMR 安全问道

列式存储系列(二): Vertica

发布时间:2019-08-28 16:19:08 浏览:3459 评论 :0

本文就 Vertica 的数据模型、存储、执行引擎以及这几个方面与 C-Store 的区别进行了简单的介绍。总的来说,Vertica 是一个纯正的列式存储数据库,为此,Vertica 设计实现了 projection 这一数据模型,并围绕该模型设计实现了一套大数据分析管理引擎。

数据存储与数据库 移动开发与客户端 大数据 数据库 排序 spark HASH ROS EMR 存储

8月28日社区直播【Spark Streaming SQL流式处理简介】

发布时间:2019-08-26 18:35:20 浏览:409 评论 :0

本次直播将简要介绍EMR Spark Streaming SQL,主要包含Streaming SQL的语法和使用,最后做demo演示

nginx 数据存储与数据库 大数据 SQL 钉钉 spark 流式计算 aliyun e-mapreduce EMR demo 安全问道

使用spark-redis组件访问云数据库Redis

发布时间:2019-08-16 16:20:41 浏览:2857 评论 :0

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

数据存储与数据库 移动开发与客户端 网络与数据通信 大数据 redis Apache shell 集群 spark scala DataFrame 云数据库 string EMR 安全问道

8月14日Spark社区直播【Spark Shuffle 优化】

发布时间:2019-08-12 16:56:57 浏览:537 评论 :0

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

云栖社区 编程语言 大数据 性能 测试 钉钉 spark aliyun EMR 存储

EMR Spark Relational Cache 利用数据预组织加速查询

发布时间:2019-08-12 10:53:27 浏览:463 评论 :0

本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术,我们可以快速过滤数据,大大减少实际发生的IO数据量,避免IO瓶颈的出现,从而优化整体查询性能。

系统研发与运维 移动开发与客户端 网络与数据通信 大数据 Cache 排序 spark aliyun 索引 EMR Group 存储 安全问道

海量监控日志基于EMR Spark Streaming SQL进行实时聚合

发布时间:2019-08-05 15:13:02 浏览:597 评论 :0

从EMR-3.21.0 版本开始将提供Spark Streaming SQL的预览版功能,支持使用SQL来开发流式分析作业。结果数据可以实时写入Tablestore。 本文以LogHub为数据源,收集ECS上的日志数据,通过Spark Streaming SQL进行聚合后,将流计算结果数据实时写入Tablestore,展示一个简单的日志监控场景。

nginx 系统研发与运维 移动开发与客户端 大数据 监控 SQL 日志 集群 Image 控制台 spark 流式计算 string EMR 表格存储

Apache Spark3.0什么样?一文读懂Apache Spark最新技术发展与展望

发布时间:2019-08-02 15:24:51 浏览:1577 评论 :0

阿里巴巴高级技术专家李呈祥带来了《Apache Spark 最新技术发展和3.0+ 展望》的全面解析,为大家介绍了Spark在整体IT基础设施上云背景下的新挑战和最新技术进展,同时预测了Spark 3.0即将重磅发布的新功能。

安全与风控 数据存储与数据库 移动开发与客户端 深度学习 大数据 性能 Apache 数据仓库 Cache Image spark 开源大数据 分布式计算 source 磁盘

玩转阿里云EMR三部曲-入门篇

发布时间:2019-08-02 11:29:42 浏览:644 评论 :0

优异的自动化创建集群让小伙伴可以专心于业务开发,不再纠结于hadoop版本,spark版本,甚至某些jar版本引发的各种奇怪问题,按需集群按小时计费模式替小伙伴们极大节省了开支,可以50个节点执行1小时,也可以3个节点执行5小时,非常灵活。

nginx 编程语言 系统研发与运维 移动开发与客户端 网络与数据通信 大数据 架构 OSS hdfs hadoop 公共云 配置 spark EMR

7月31日Spark钉钉群直播【Apache Spark 在存储计算分离趋势下的数据缓存】

发布时间:2019-07-29 17:43:47 浏览:431 评论 :0

在数据上云的大背景下,存储计算分离逐渐成为了大数据处理的一大趋势,计算引擎需要通过网络读写远端的数据,很多情况下 IO 成为了整个计算任务的瓶颈,因而数据缓存成为此类场景下的一个重要的优化手段。本次分享将介绍 Spark 在数据缓存上的一些做法,并将介绍 EMR 自研的 Jindo 存储系统在数据缓存上的应用。

云栖社区 编程语言 系统研发与运维 移动开发与客户端 大数据 机器学习 Apache 钉钉 spark aliyun EMR 存储

Flink在快手的应用实践与技术演进之路

发布时间:2019-07-26 17:41:42 浏览:583 评论 :0

Flink 在快手应用场景与规模 1. Flink 在快手应用场景 快手计算链路是从 DB/Binlog 以及 WebService Log 实时入到 Kafka 中,然后接入 Flink 做实时计算,其中包括实时 ETL、实时分析、Interval Join 以及实时训练,最后的结果存到 Druid、ES 或者 HBase 里面,后面接入一些数据应用产品;同时这一份 Kafka 数据实时 Dump 一份到 Hadoop 集群,然后接入离线计算。

集群 Image source 磁盘 存储

HDFS Federation简介

发布时间:2019-07-26 16:58:12 浏览:504 评论 :0

背景 熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下: 从上面可以看出 HDFS 的架构其实大致可以分为两层: Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。

大数据 架构 hdfs hadoop 高可用 配置 集群 Image 存储 路由器

7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】

发布时间:2019-07-23 14:11:58 浏览:323 评论 :1

Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。

安全与风控 系统研发与运维 网络与数据通信 Apache spark aliyun 开源大数据 存储 安全问道

【译】使用Spark SQL 运行大规模基因组工作流

发布时间:2019-07-15 10:29:41 浏览:8403 评论 :0

将数据提取到Spark中是大多数大数据作业的第一步,但这并不是大数据旅途的终点。

nginx 编程语言 移动开发与客户端 网络与数据通信 python 大数据 SQL Image spark DataFrame 存储 数据类型 数组 工作流 安全问道

7月10日直播【E-MapReduce产品探秘,扩展开源生态云上的能力】

发布时间:2019-07-08 18:52:16 浏览:316 评论 :0

E-MapReduce的产品能力介绍,通过EMR来构建高效的云上大数据平台,优化云上的使用成本,更快的计算效率。

安全与风控 数据存储与数据库 系统研发与运维 大数据 aliyun e-mapreduce EMR

3