【Spark Summit EU 2016】在数据仓库中引入Dataframes+Parquet

简介: 本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲,在已存在的数据仓库中使用Dataframes+Parquet的经验方法,实现了在保证原有代码的情况下,引进Dataframes+Parquet,并且重写比较慢的工作作为Dataframes的管道,用Spark对从输入端流入的数据进行处理并输出。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data;此外,通过Maxcompute及其配套产品,低廉的大数据分析仅需几步,详情访问https://www.aliyun.com/product/odps

本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲,在已存在的数据仓库中使用Dataframes+Parquet的经验方法,实现了在保证原有代码的情况下,引进Dataframes+Parquet,并且重写比较慢的工作作为Dataframes的管道,用Spark对从输入端流入的数据进行处理并输出。


ca7cd6861b02f8d1a4fb9bac559c996eca604d29
cec66b1e7363d15cfd6efe3978a279f8ed8ba822

18a67c1b98012e1501840f20048dbf84798b3a72

42d61af480f06b155913ed61436cdf6e9b6895e1

a60f51d5d96fb86d757b0ad4415d3c18fc21da81

05207b7dfb9b4e2daa2cc7e1d1cf37d285b56080

350cf31acab6d829826bab10c81daeda6c91d358

61dfa5fcd97fb36dda8a6bd1d7daf15fec82c6a0

f705081aea22a38d3bf4c5bcfbe8cb9ab9cb40ff

62bbf8987f1fc5aa3066e5db167f6010de06e13f

2a80221df8271ee892423cd3c671888973d7056b

0ac0cced25e92c83643c29fb0f7c353b4138bce3

cabb5345d4de3460dbb9a9eca631c44e5241c175

b7cb5cc230390b2e1fcd8a4812ec4186fedb6c69

6d1f7f3d2d2d4edaa76dad42a1fd203e10b64844

bdbb6f3e8b403f8c08f0d49eafd19999b9d5e9c9

96c0c5a09d4fbd1a65f00a0cff000cfedd6e3348

8b6c93489f1046a5560c7a70c1ea487aac22bab6

1ad8d0a92c1213c488e9d0b846795683480c070f

815e300ba38a5063c50feae060e4b0cba916a918

bf3cde5aa95b6e89ae6f5cd33695537c0f29e96f

da0fc5cce1f9bcf5e42193d46accd3145d767242

a247792e1da24f8dd3b548059a43e93a9d0d73ce

6e82d5c352700b7fc07713ac1a14ea76f0351377

4d5ba274759c04166c759db9321b342b3598c27d

20610162011b0346f8a35c313fc0d7ae95b2d227

3c4d716ec7efb351e0f9524bb10ba2b6405158fd

49c9450f4445cb6a1ef588126bcc29f63207b08e

e7133a121cef186e478c099c99d2e2fdf20de7b7

b9be11327cd339ed1ee6eec065aaf70024ffdc05

相关文章
|
5月前
|
SQL 分布式计算 数据挖掘
197 Spark DataFrames概述
197 Spark DataFrames概述
37 0
|
4月前
|
SQL 存储 分布式计算
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
【大数据技术Hadoop+Spark】Hive数据仓库架构、优缺点、数据模型介绍(图文解释 超详细)
169 0
|
存储 SQL JSON
Spark - 一文搞懂 parquet
parquet 文件常见于 Spark、Hive、Streamin、MapReduce 等大数据场景,通过列式存储和元数据存储的方式实现了高效的数据存储与检索,下面主要讲parquet 文件在 spark 场景下的存储,读取与使用中可能遇到的坑。......
1319 0
Spark - 一文搞懂 parquet
|
5月前
|
SQL 分布式计算 Shell
198 Spark DataFrames创建
198 Spark DataFrames创建
31 0
|
SQL 分布式计算 HIVE
spark sql编程之实现合并Parquet格式的DataFrame的schema
spark sql编程之实现合并Parquet格式的DataFrame的schema
290 0
spark sql编程之实现合并Parquet格式的DataFrame的schema
|
存储 SQL 分布式计算
【Parquet】Spark读取Parquet问题详解……
【Parquet】Spark读取Parquet问题详解……
641 0
【Parquet】Spark读取Parquet问题详解……
|
存储 分布式计算 大数据
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
425 0
SPARK Parquet嵌套类型的向量化支持以及列索引(column index)
|
SQL 存储 JSON
Apache Spark,Parquet和麻烦的Null
  关于类型安全性的经验教训,并承担过多   介绍   在将SQL分析ETL管道迁移到客户端的新Apache Spark批处理ETL基础结构时,我注意到了一些奇特的东西。 开发的基础结构具有可为空的DataFrame列架构的概念。 乍看起来似乎并不奇怪。 大多数(如果不是全部)SQL数据库都允许列为可空或不可空,对吗? 让我们研究一下在创建Spark DataFrame时,这种看似明智的概念为什么会带来问题。   from pyspark.sql import types   schema=types.StructType([
760 0
|
SQL 存储 缓存
Spark SQL的Parquet那些事儿
Parquet是一种列式存储格式,很多种处理引擎都支持这种存储格式,也是sparksql的默认存储格式。Spark SQL支持灵活的读和写Parquet文件,并且对parquet文件的schema可以自动解析。当Spark SQL需要写成Parquet文件时,处于兼容的原因所有的列都被自动转化为了nullable。 1读写Parquet文件 // Encoders for most common types are automatically provided by importing spark.implicits._ import spark.implicits._ val peop
688 0