备案控制台

开发者社区

开发者社区云计算文章正文

X-Pack Spark用户手册

2019-06-18 3253

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 概述 Spark是大数据平台的通用计算平台，应用非常广泛。本文主要介绍Spark相关的知识，主要包括：了解Spark，使用Spark，使用Spark过程中遇到的问题FAQ等，谨帮助用户快速的掌握Spark以及如何使用Spark。

概述

X-Pack Spark是大数据平台的通用计算平台，应用非常广泛。本文主要介绍Spark相关的知识，主要包括：了解Spark，使用Spark，使用Spark过程中遇到的问题FAQ等，谨帮助用户快速的掌握Spark以及如何使用Spark。
X-Pack Spar兼容开源Spark，本文介绍的内素材以X-Pack Spark为背景。

大纲

基础篇

进阶篇（高级功能）

X-Pack Spark使用[FAQ]

FAQ明细请参考：X-Pack Spark使用FAQ

X-Pack Spark之性能优化

Spark Streaming 常见优化。

案例实战

注意，本篇文章可以转载，但必须保留原文地址，以及上面各小结原文地址。

钉钉交流

关键词：

apache spark x-pack

云hbase+spark

目录

相关文章

vohelon

|

弹性计算分布式计算 NoSQL

X-Pack Spark服务具有以下几个特点：

X-Pack Spark服务具有以下几个特点：

vohelon

114 0 0

云hbase+spark

|

分布式计算 DataWorks 网络安全

Dataworks同步数据到X-pack Spark

云hbase+spark

1153 0 0

Roin123

|

关系型数据库分布式数据库分布式计算

最佳实践 | RDS & POLARDB归档到X-Pack Spark计算

部分RDS和POLARDB For MySQL的用户曾遇到如下场景：当一张表的数据达到几千万时，你查询一次所花的时间会变多。这时候采取水平分表的策略，水平拆分是将同一个表的数据进行分块保存到不同的数据库中，这些数据库中的表结构完全相同。本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓，做统一的大数据计算。

Roin123

6677 0 0

云hbase+spark

|

SQL 存储分布式计算

X-Pack Spark 访问OSS

简介对象存储服务（Object Storage Service，OSS）是一种海量、安全、低成本、高可靠的云存储服务，适合存放任意类型的文件。容量和处理能力弹性扩展，多种存储类型供选择，全面优化存储成本。

云hbase+spark

1103 0 0

沐远

|

关系型数据库分布式数据库 PolarDB

RDS&POLARDB归档到X-Pack Spark计算最佳实践

业务背景对于RDS&POLARDB FOR MYSQL 有些用户场景会遇到，当一张的数据达到几千万时，你查询一次所花的时间会变多。这时候会采取水平分表的策略，水平拆分是将同一个表的数据进行分块保存到不同的数据库中，这些数据库中的表结构完全相同。

沐远

2176 0 0

云hbase+spark

|

分布式计算监控 Spark

X-Pack Spark 监控指标详解

概述本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口打开Spark集群依次进入：数据库连接>UI访问>详细监控UI>Ganglia。

云hbase+spark

1447 0 0

云hbase+spark

|

分布式计算分布式数据库 Spark

X-Pack Spark使用[FAQ]

概述本文主要列出在使用X-Pack Spark的FAQ。 Spark Connectors 主要列举Spark 对接其它数据源遇到的问题 Spark on HBase Spark on HBase Connector：如何在Spark侧设置HBase参数。

云hbase+spark

2252 0 0

云覆bill

X-Pack Spark对接阿里云日志服务LogHub

概述 X-Pack Spark分析引擎是基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的多种数据源，例如：云HBase数据库、MongoDB、Phoenix等，同时也支持对接阿里云日志服务LogHub。

云覆bill

1732 0 0

云hbase+spark

如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析

概述 X-Pack Spark目前是通过Yarn管理资源，在提交Spark 任务后我们经常需要知道任务的运行状况，例如在哪里看日志、怎么查看每个Executor的运行状态、每个task的运行状态，性能瓶颈点在哪里等信息。

云hbase+spark

3431 0 0

巴客

|

分布式计算测试技术分布式数据库

X-Pack Spark归档POLARDB数据做分析

简介 POLARDB数据库是阿里云自研的下一代关系型云数据库，100%兼容MySQL，性能最高是MySQL的6倍，但是随着数据量不断增大，面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎，旨在打造数据库闭环，借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件，一条SQL完成复杂数据分析，并将分析结果回流到业务库提供查询。

巴客

9035 0 1

热门文章

最新文章

Paimon 与 Spark 的集成（二）：查询优化

阿里云 EMR Serverless Spark 版免费邀测中

大数据技术与Python：结合Spark和Hadoop进行分布式计算

bigdata-36-Spark转换算子与动作算子

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

Spark 源码分析 -- BlockStore

BR-MLP基于spark+Hadoop分布式数据挖掘解决方案功能剖析

Spark RDD类源码阅读

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark环境搭建与使用

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

相关实验场景

更多

Html5和Webpack3：Webpack5的常见用法

Html5和Webpack1：Webpack5打包工具介绍

下一篇

阿里云oss简介和使用流程