1. 云栖社区>
  2. 全部标签>
  3. #spark#
spark

#spark#

已有24人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

基于Knox登录Yarn UI查看SparkStreaming作业兼容性问题说明

问题背景 1.登录EMR集群节点,运行SparkStreaming示例,如下所示(不同版本EMR集群spark-examples_xxx.jar的路径略有差异): [root@emr-header-1 ~]# spark-submit --class org.

配置 安全组 集群 SSH Image spark google EMR test 兼容性 chrome 流数据

X-Pack Spark使用[FAQ]

概述 本文主要列出在使用X-Pack Spark的FAQ。 Spark Connectors 主要列举Spark 对接其它数据源遇到的问题 Spark on HBase Spark on HBase Connector:如何在Spark侧设置HBase参数。

faq hbase SQL spark aliyun Connectors

SparkStreming:使用Checkpoint创建StreamingContext修改executor-cores、executor-memory等资源信息不生效。

在使用SparkStreaming时,使用StreamingContext.getOrCreate(checkpointDirectory, functionToCreateContext _)创建StreamingContext。

配置 控制台 spark Create

SparkSQL的3种Join实现

5万人关注的大数据成神之路,不来了解一下吗?5万人关注的大数据成神之路,真的不来了解一下吗?5万人关注的大数据成神之路,确定真的不来了解一下吗? 欢迎您关注《大数据成神之路》 引言 Join是SQL语句中的常用操作,良好的表结构能够将数据分散在不同的表中,使其符合某种范式,减少表冗余、更新容错等。

云栖社区 分布式 大数据 算法 集群 Image spark HASH Driver Shuffle

Spark中几种ShuffleWriter的区别你都知道吗?

一.前言 在Spark中有三种shuffle写,分别是BypassMergeSortShuffleWriter、UnsafeShuffleWriter、SortShuffleWriter。分别对应三种不同的shuffleHandle。

大数据 排序 spark 磁盘 数据结构 存储

Flink/Spark 如何实现动态更新作业配置

由于实时场景对可用性十分敏感,实时作业通常需要避免频繁重启,因此动态加载作业配置(变量)是实时计算里十分常见的需求,比如通常复杂事件处理 (CEP) 的规则或者在线机器学习的模型。尽管常见,实现起来却并没有那么简单,其中最难点在于如何确保节点状态在变更期间的一致性。

数据流 配置 spark Driver stream flink

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis。

数据存储与数据库 移动开发与客户端 网络与数据通信 大数据 redis Apache shell 集群 spark scala DataFrame 云数据库 string EMR 安全问道

使用spark-redis组件访问云数据库Redis

本文演示了在Spark Shell中通过spark-redis组件读写Redis数据的场景。所有场景在阿里云E-MapReduce集群内完成,Redis使用阿里云数据库Redis

redis Apache 数据库 shell 集群 spark scala DataFrame 云数据库 string EMR

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

安全与风控 数据存储与数据库 大数据 性能 测试 钉钉 spark aliyun EMR 存储 安全问道

8月14日Spark社区直播【Spark Shuffle 优化】

本次直播介绍EMR Spark 在shuffle方面的相关优化工作,主要包含shuffle 优化的背景以及shuffle 优化的设计方案,最后会介绍Spark shuffle 在 TPC-DS测试中的性能数据

云栖社区 编程语言 大数据 性能 测试 钉钉 spark aliyun EMR 存储

EMR Spark Relational Cache 利用数据预组织加速查询

本文介绍了EMR Spark的Relational Cache如何从数据量较大的Cube中快速提取出所需数据加速查询的原理。通过列式存储、文件索引、Z-Order等技术,我们可以快速过滤数据,大大减少实际发生的IO数据量,避免IO瓶颈的出现,从而优化整体查询性能。

系统研发与运维 移动开发与客户端 网络与数据通信 大数据 Cache 排序 spark aliyun 索引 EMR Group 存储 安全问道

EMR Spark Relational Cache 利用数据预组织加速查询

在利用Relational Cache进行查询优化时,我们需要通过预计算,存储大量数据。而在查询时,我们真正需要读取的数据量也许并不大。为了能让查询实现秒级响应,这就涉及到优化从大量数据中快速定位所需数据的场景。

Cache 排序 spark aliyun 索引 EMR Group 存储 big data sparksql RelationalCache ZOrder

《云计算架构技术与实践》读书笔记(三):容器开源软件和大数据开源软件

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/75384628 这位大侠,这是我的公众号:程序员江湖。

大数据 架构 hadoop 性能 配置 集群 容器 数据挖掘 spark Server 应用管理 数据中心

Hadoop生态基础学习总结

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/a724888/article/details/80956973 这位大侠,这是我的公众号:程序员江湖。

分布式 storm hbase hdfs hadoop 高可用 集群 spark supervisor zookeeper Mapreduce 存储

后端技术杂谈3:Lucene基础原理与实践

一、总论 根据lucene.apache.org/java/docs/i…定义: Lucene是一个高效的,基于Java的全文检索库。

数据处理 spark 索引 string lucene

搞懂分布式技术25:初探大数据计算框架与平台

1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等。

分布式 大数据 storm hadoop Apache 数据处理 数据库 reduce 排序 spark 分布式计算 Hive Mapreduce 流计算

Apache Carbondata接入Kafka实时流数据

1.导入carbondata依赖的jar包 将apache-carbondata-1.5.3-bin-spark2.3.2-hadoop2.7.2.jar导入$SPARKHOME/jars;或将apache-carbondata-1.

SQL Apache 配置 spark string stream Create timestamp source 数据存储 kafka 流数据 carbondata

基于Yarn API的Spark程序监控

一.简述 通过对Yarn ResourceManager中运行程序的状态(RUNNING、KILLED、FAILED、FINISHED)以及ApplicationMaster中Application的Job执行时长超过批次时间的监控,来达到对Spark on Yarn程序的失败重启、超时重启等功能 二.

spark curl yarn resourcemanager ApplicationMaster yarn-api-client

大数据平台常用组件

BigData-Alpha-0.1.0 备注: 未增加zookeeper、Doris、CarbonData 部分归类模糊 仅供参考

redis hbase hadoop zabbix spark zookeeper kafka ELK phoenix flink ClickHouse

145
GO