Data Lake Analytics: 基于OSS文件自动推断建表

2019-04-19 1105

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 背景用户在使用Data Lake Analytics对OSS上的数据建表时，需要预先知道目标文件的格式和schema信息。当目标文件中每条记录对应的列数很多时，需要一个个手动匹配，很不方便。在新版的Data Lake Analytics中，支持了CREATE EXTERNAL TABLE LIKE 的语法。

背景

用户在使用Data Lake Analytics对OSS上的数据建表时，需要预先知道目标文件的格式和schema信息。当目标文件中每条记录对应的列数很多时，需要一个个手动匹配，很不方便。

在新版的Data Lake Analytics中，支持了CREATE EXTERNAL TABLE LIKE 的语法。用户只需要提供表名和目标文件的路径，即可完成建表过程。

本文将重点介绍如何在Data Lake Analytics中使用该语句进行建表。

对OSS文件自动建表

基本语法

CREATE EXTERNAL TABLE table_name LIKE MAPPING ('oss://path/to/target/dir')

例子1

我想针对OSS上的一个包含相同schema的parquet文件的目录建表

目标表的名字为 my_new_table
该文件在OSS上的目录结构如下，且file1.parquet, file2.parquet和file3.parquet的schema结构完全相同。

oss://mybucket/my_new_table/file1.parquet
oss://mybucket/my_new_table/file2.parquet
oss://mybucket/my_new_table/file3.parquet

目标表期待的LOCATION为

oss://mybucket/my_new_table/

相应的在Data Lake Analytics中的建表语句如下：

CREATE EXTERNAL TABLE my_new_table LIKE
MAPPING ('oss://mybucket/my_new_table/')

建表成功后，执行SHOW CREATE TABLE语句进行验证。

CREATE EXTERNAL TABLE `my_new_table` (
    `optionalPrimitive` int,
    `requiredPrimitive` int,
    `repeatedPrimitive` ARRAY<int>,
    `optionalMessage` STRUCT<someId:int>,
    `requiredMessage` STRUCT<someId:int>,
    `repeatedMessage` ARRAY<int>
)
STORED AS `PARQUET`
LOCATION 'oss://oss://mybucket/my_new_table/'
TBLPROPERTIES (
    'create.table.like.file' = 'oss://mybucket/my_new_table/'
)

例子2

我想针对OSS上的一个特定Parquet文件建表

目标表的名字为 my_new_table
该文件在OSS上的目录结构如下，且file1.parquet, file2.parquet和file3.parquet的schema结构不一样。

oss://mybucket/my_new_table/file1.parquet
oss://mybucket/my_new_table/file2.parquet
oss://mybucket/my_new_table/file3.parquet

目标表期待的LOCATION为

oss://mybucket/my_new_table/file1.parquet

相应的在Data Lake Analytics中的建表语句如下：

CREATE EXTERNAL TABLE my_new_table LIKE
MAPPING ('oss://mybucket/my_new_table/file1.parquet');

建表成功后，执行SHOW CREATE TABLE语句进行验证。

CREATE EXTERNAL TABLE `my_new_table` (
    `optionalPrimitive` int,
    `requiredPrimitive` int,
    `repeatedPrimitive` ARRAY<int>,
    `optionalMessage` STRUCT<someId:int>,
    `requiredMessage` STRUCT<someId:int>,
    `repeatedMessage` ARRAY<int>
)
STORED AS `PARQUET`
LOCATION 'oss://oss://mybucket/my_new_table/file1.parquet'
TBLPROPERTIES (
    'create.table.like.file' = 'oss://mybucket/my_new_table/file1.parquet'
)

小结

对OSS数据源，CREATE EXTERNAL TABLE LIKE目前已经支持Parquet, ORC, JSON, Avro等格式。
对于目录结构中含有格式为 partCol=partVal 的分区目录，DLA也可以自动识别分区列。

Data Lake Analytics: 基于OSS文件自动推断建表

背景

对OSS文件自动建表

基本语法

例子1

例子2

小结

云原生数据湖 Data Lake Analytics

热门文章

最新文章

相关课程

相关电子书

相关实验场景