实时计算Flink——独享模式——Batch功能介绍

  1. 云栖社区>
  2. 博客>
  3. 正文

实时计算Flink——独享模式——Batch功能介绍

李博 bluemind 2018-11-14 13:08:23 浏览1516
展开阅读全文

什么是Flink Batch功能

实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。

如何试用Flink Batch功能

与流处理功能相同,Flink Batch功能对SQL有完善的支持,并且做到了批流SQL统一。与流相比,批的SQL暂不支持window相关函数,其他语法都支持。所以SQL文档请参考公共云流计算SQL文档。

如何创建批处理作业

准备工作

  1. 申请独享模式:目前批处理功能仅在独享模式开通,请移步独享模式申请
  2. 创建集群:请按创建集群流程创建集群并创建项目。

创建批处理作业

  1. 进入流计算控制台

  2. 创建batch作业。1

  3. 编写作业,示例:读取HDFS数据进行计算,并写回HDFS。

  4. 
    
    1. -- 源表DDL,类型orc,存放路径,用户HDFS hdfs://roothdfs/table/ds=20180816/ 目录
    2. create table hdfs_orc_source(
    3. name varchar,
    4. age BIGINT,
    5. birthday BIGINT
    6. ) with (
    7. type='orc',
    8. path='hdfs://hdfshome/user/hive/warehouse/xxx/table1/dt=20180814',
    9. enumerateNestedFiles='true'
    10. );
    11. -- 结果表ddl
    12. create table test_sink(
    13. name varchar,
    14. age bigint,
    15. birthday bigint
    16. ) with (
    17. type='orc',
    18. filePath='hdfs://hdfshome/orcpath/test'
    19. )
    20. -- DML语句
    21. insert into test_sink
    22. select
    23. name,
    24. age,
    25. birthday
    26. from hdfs_source

    说明:

    1. connector相关配置,请参考阿里云官网Batch(试用)
    2. SQL相关文档,请参考FlinkSQL手册
本文转自实时计算——Batch功能介绍

网友评论

登录后评论
0/500
评论