1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有22人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

EMR Spark Relational Cache的执行计划重写

背景 EMR Spark提供的Relational Cache功能,可以通过对数据模型进行预计算和高效地存储,加速Spark SQL,为客户实现利用Spark SQL对海量数据进行即时查询的目的。Relational Cache的工作原理类似物化视图,在用户提交SQL语句时对语句进行分析,并选出可用的预计算结果来加速查询。

Cache spark e-mapreduce EMR Hive aggregate kylin sparksql adhoc RelationalCache Jindo Cube

Spark内置图像数据源初探

在Apache Spark 2.4中引入了一个新的内置数据源, 图像数据源.用户可以通过DataFrame API加载指定目录的中图像文件,生成一个DataFrame对象.通过该DataFrame对象,用户可以对图像数据进行简单的处理,然后使用MLlib进行特定的训练和分类计算.

Image spark scala DataFrame string EMR 存储 图像 saprk

一起探讨下零基础如何快速入门大数据技巧

教你零基础如何快速入门大数据技巧现在是大数据时代,很多人都想要学习大数据,因为不管是就业前景还是薪资都非常的不错,不少人纷纷从其他行业转型到大数据行业,那么零基础的人也想要学习大数据怎么办呢?下面一起探讨下零基础如何快速入门大数据技巧吧。

linux python 大数据 java javascript hadoop 数据库 人工智能 软件开发 集群 spark 多线程 分布式计算 分布式数据库

使用EMR Spark Relational Cache跨集群同步数据 | 6月6号云栖夜读

在本刊开篇文章中,讲述了:Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。

PostgreSQL 数据库 集群 Cache 同步 spark aliyun 分布式计算 EMR 培训

DataSimba系列之计算引擎篇

数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产。如何处理大数据,挖掘大数据的价值,让大数据为企业的发展保驾护航,将是未来信息技术发展道路上关注的重点。

分布式 大数据 SQL 数据处理 数据库 数据仓库 数据分析 spark 离线计算 Hive 磁盘 存储 计算引擎 数据中台

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。

云栖社区 系统软件 数据存储与数据库 大数据 Json 数据处理 数据仓库 集群 Cache 同步 spark string EMR 数据同步 分区表

使用EMR Spark Relational Cache跨集群同步数据

Relational Cache是EMR Spark支持的一个重要特性,主要通过对数据进行预组织和预计算加速数据分析,提供了类似传统数据仓库物化视图的功能。除了用于提升数据处理速度,Relational Cache还可以应用于其他很多场景,本文主要介绍如何使用Relational Cache跨集群同步数据表。

大数据 分布式系统与计算 Json 数据处理 数据仓库 集群 Cache 数据分析 同步 spark string EMR 数据同步 分区表

漫谈分布式计算框架

本文主要谈了一些分布式计算框架方面的心得。

分布式 架构 线程 spark pandas 分布式计算 容灾 Mapreduce

钉钉群直播【Structured Steaming的进阶与实践】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。 本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。

nginx 编程语言 移动开发与客户端 大数据 SQL 钉钉 spark API e-mapreduce 安全问道

钉钉群直播【Structured Steaming的进阶与实践 】

structured steaming因其低时延和提供的SQL API等特性被越来越多的企业所使用,作为实时计算的首选。 本次分享structured steaming的使用,包含spark 2.4 structured streaming的新特性,API原理和使用场景等的介绍。

云栖社区 数据存储与数据库 互联网产品及应用 大数据 SQL 钉钉 spark API e-mapreduce

使用 Kafka + Spark Streaming + Cassandra 构建数据实时处理引擎

Apache Kafka 是一个可扩展,高性能,低延迟的平台,允许我们像消息系统一样读取和写入数据。我们可以很容易地在 Java 中使用 Kafka。 Spark Streaming 是 Apache Spark 的一部分,是一个可扩展、高吞吐、容错的实时流处理引擎。

Apache 数据库 spark string Cassandra class PUT scope

通过WebUI查看Structured Streaming作业统计信息

从EMR-3.18.1版本开始,EMR将提供Spark Streaming SQL预览版功能。本次作为新特性的一部分,EMR将扩展现有Spark WebUI,支持Structured Streaming Query的统计信息查看。

大数据 SQL 数据处理 开源 spark 流式计算 e-mapreduce 分布式计算 EMR last input

基于Spark SQL实现对HDFS操作的实时监控报警

E-MapReduce计划从EMR-3.18.1版本开始提供Spark Streaming SQL的预览版功能。Spark Streaming SQL是在Spark Structured Streaming的基础上做了进一步封装,方便用户使用SQL语言进行Spark流式分析开发。

大数据 分布式系统与计算 hdfs SQL Apache qps spark IP string schema type 开源计算

机器学习工具、平台汇总

1. 平台和系统 TensorFlow — TensorFlow 是谷歌的第二代机器学习系统,内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用 TensorFlow PaddlePaddle — 百度研发的深度学习平台,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持 Apache SINGA — SINGA 是基于大型数据集训练,大型深度学习模块的常规分布式学习平台。

深度学习 分布式 算法 hadoop c++ Apache 模块 人工智能 个性化推荐 集群 数据挖掘 spark 分布式计算 swift 高性能

【精彩直播+最全资料下载】阿里云栖开发者沙龙 - BigData NoSQL Meetup(上海站)业内大咖齐聚,各大技术社区支持,与你畅聊 BigData NoSQL

云栖开发者沙龙介绍​ 阿里云栖开发者沙龙是“云栖社区”主办的线下技术沙龙品牌,希望通过技术干货分享来打通线上线下专家和开发者的连接。沙龙每期将定位不同的技术方向,逐步覆盖 云计算,大数据,前端,PHP,Java ,android,AI,运维,测试 等技术领域,并会穿插一些特别专场(开源专场,女性开发者专场,开发者成长专场等)。

云栖社区 大数据 NOSQL hbase 同步 spark 解决方案 数据同步 查询优化 客服

141
GO