开发者社区大数据文章正文

【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet

2017-02-12 1604

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲，在已存在的数据仓库中使用Dataframes+Parquet的经验方法，实现了在保证原有代码的情况下，引进Dataframes+Parquet，并且重写比较慢的工作作为Dataframes的管道，用Spark对从输入端流入的数据进行处理并输出。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲，在已存在的数据仓库中使用Dataframes+Parquet的经验方法，实现了在保证原有代码的情况下，引进Dataframes+Parquet，并且重写比较慢的工作作为Dataframes的管道，用Spark对从输入端流入的数据进行处理并输出。

ca7cd6861b02f8d1a4fb9bac559c996eca604d29
cec66b1e7363d15cfd6efe3978a279f8ed8ba822

18a67c1b98012e1501840f20048dbf84798b3a72

42d61af480f06b155913ed61436cdf6e9b6895e1

a60f51d5d96fb86d757b0ad4415d3c18fc21da81

05207b7dfb9b4e2daa2cc7e1d1cf37d285b56080

350cf31acab6d829826bab10c81daeda6c91d358

61dfa5fcd97fb36dda8a6bd1d7daf15fec82c6a0

f705081aea22a38d3bf4c5bcfbe8cb9ab9cb40ff

62bbf8987f1fc5aa3066e5db167f6010de06e13f

2a80221df8271ee892423cd3c671888973d7056b

0ac0cced25e92c83643c29fb0f7c353b4138bce3

cabb5345d4de3460dbb9a9eca631c44e5241c175

b7cb5cc230390b2e1fcd8a4812ec4186fedb6c69

6d1f7f3d2d2d4edaa76dad42a1fd203e10b64844

bdbb6f3e8b403f8c08f0d49eafd19999b9d5e9c9

96c0c5a09d4fbd1a65f00a0cff000cfedd6e3348

8b6c93489f1046a5560c7a70c1ea487aac22bab6

1ad8d0a92c1213c488e9d0b846795683480c070f

815e300ba38a5063c50feae060e4b0cba916a918

bf3cde5aa95b6e89ae6f5cd33695537c0f29e96f

da0fc5cce1f9bcf5e42193d46accd3145d767242

a247792e1da24f8dd3b548059a43e93a9d0d73ce

6e82d5c352700b7fc07713ac1a14ea76f0351377

4d5ba274759c04166c759db9321b342b3598c27d

20610162011b0346f8a35c313fc0d7ae95b2d227

3c4d716ec7efb351e0f9524bb10ba2b6405158fd

49c9450f4445cb6a1ef588126bcc29f63207b08e

e7133a121cef186e478c099c99d2e2fdf20de7b7

b9be11327cd339ed1ee6eec065aaf70024ffdc05

文章标签：

分布式计算

Spark

大数据

MaxCompute

关键词：

apache spark数据仓库

spark数据仓库

apache spark DataFrames

apache spark parquet

apache spark summit

小猫吃鱼569

阿甘兄

5月前

SQL 分布式计算数据挖掘

197 Spark DataFrames概述

阿甘兄

37 0 0

热烈的马

4月前

SQL 存储分布式计算

【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍（图文解释超详细）

热烈的马

169 0 0

BIT_666

存储 SQL JSON

Spark - 一文搞懂 parquet

parquet 文件常见于 Spark、Hive、Streamin、MapReduce 等大数据场景，通过列式存储和元数据存储的方式实现了高效的数据存储与检索，下面主要讲parquet 文件在 spark 场景下的存储，读取与使用中可能遇到的坑。......

BIT_666

1319 0 0

阿甘兄

5月前

SQL 分布式计算 Shell

198 Spark DataFrames创建

阿甘兄

31 0 0

about云

SQL 分布式计算 HIVE

spark sql编程之实现合并Parquet格式的DataFrame的schema

about云

290 0 0

spark sql编程之实现合并Parquet格式的DataFrame的schema

857技术社区

存储 SQL 分布式计算

【Parquet】Spark读取Parquet问题详解……

857技术社区

641 0 0

6hkip34i2a7n6

存储分布式计算大数据

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

6hkip34i2a7n6

425 0 0

SPARK Parquet嵌套类型的向量化支持以及列索引(column index)

游客wkxim4agoo6le

SQL 分布式计算 Spark

Spark SQL中基于parquet数据的加载方式、数据源的自动分区推断以及数据源的元数据合并

笔记

游客wkxim4agoo6le

148 0 1

dasein58

SQL 存储 JSON

Apache Spark，Parquet和麻烦的Null

　　关于类型安全性的经验教训，并承担过多　　介绍　　在将SQL分析ETL管道迁移到客户端的新Apache Spark批处理ETL基础结构时，我注意到了一些奇特的东西。开发的基础结构具有可为空的DataFrame列架构的概念。乍看起来似乎并不奇怪。大多数（如果不是全部）SQL数据库都允许列为可空或不可空，对吗？让我们研究一下在创建Spark DataFrame时，这种看似明智的概念为什么会带来问题。　　from pyspark.sql import types 　　schema=types.StructType([

dasein58

760 0 0

dasein58

SQL 存储缓存

Spark SQL的Parquet那些事儿

Parquet是一种列式存储格式，很多种处理引擎都支持这种存储格式，也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件，并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时，处于兼容的原因所有的列都被自动转化为了nullable。 1读写Parquet文件 // Encoders for most common types are automatically provided by importing spark.implicits._ import spark.implicits._ val peop

dasein58

688 0 0

【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet

热门文章

最新文章

相关课程

相关电子书