实时计算Flink——独享模式——Batch功能介绍

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 什么是Flink Batch功能 实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。

什么是Flink Batch功能

实时计算 Flink是阿里巴巴在开源Flink基础上做了大量优化的Flink版本,其中增加了大量的批处理相关功能,使Flink成为统一了批流计算模型的大数据处理引擎。

如何试用Flink Batch功能

与流处理功能相同,Flink Batch功能对SQL有完善的支持,并且做到了批流SQL统一。与流相比,批的SQL暂不支持window相关函数,其他语法都支持。所以SQL文档请参考公共云流计算SQL文档。

如何创建批处理作业

准备工作

  1. 申请独享模式:目前批处理功能仅在独享模式开通,请移步独享模式申请
  2. 创建集群:请按创建集群流程创建集群并创建项目。

创建批处理作业

  1. 进入流计算控制台

  2. 创建batch作业。1

  3. 编写作业,示例:读取HDFS数据进行计算,并写回HDFS。

  4.  
       
    1. -- 源表DDL,类型orc,存放路径,用户HDFS hdfs://roothdfs/table/ds=20180816/ 目录
    2. create table hdfs_orc_source(
    3. name varchar,
    4. age BIGINT,
    5. birthday BIGINT
    6. ) with (
    7. type='orc',
    8. path='hdfs://hdfshome/user/hive/warehouse/xxx/table1/dt=20180814',
    9. enumerateNestedFiles='true'
    10. );
    11. -- 结果表ddl
    12. create table test_sink(
    13. name varchar,
    14. age bigint,
    15. birthday bigint
    16. ) with (
    17. type='orc',
    18. filePath='hdfs://hdfshome/orcpath/test'
    19. )
    20. -- DML语句
    21. insert into test_sink
    22. select
    23. name,
    24. age,
    25. birthday
    26. from hdfs_source

    说明:

    1. connector相关配置,请参考阿里云官网Batch(试用)
    2. SQL相关文档,请参考FlinkSQL手册
本文转自实时计算—— Batch功能介绍
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
2月前
|
定位技术 流计算
在Flink CEP中,可以通过定义带有时间约束的模式来匹配事件的持续时间
在Flink CEP中,可以通过定义带有时间约束的模式来匹配事件的持续时间
24 2
|
3月前
|
消息中间件 Kafka 流计算
Flink的分区表订阅功能是通过Kafka的topic分区来实现的
Flink的分区表订阅功能是通过Kafka的topic分区来实现的【1月更文挑战第6天】【1月更文挑战第26篇】
100 1
|
4月前
|
Kubernetes Java 流计算
Flink application on k8s 有没有和 session 模式通过-C 指定额外的 jar 的相同功能啊?
Flink application on k8s 有没有和 session 模式通过-C 指定额外的 jar 的相同功能啊?
30 0
|
1月前
|
定位技术 流计算
在Flink CEP中,可以通过定义带有时间约束的模式来匹配事件的持续时间
【2月更文挑战第12天】在Flink CEP中,可以通过定义带有时间约束的模式来匹配事件的持续时间
33 3
|
1月前
|
存储 SQL Java
阿里Flink云服务提供了CDC(Change Data Capture)功能
【2月更文挑战第10天】阿里Flink云服务提供了CDC(Change Data Capture)功能
34 1
|
2月前
|
Java 流计算
在Flink实时任务中,POJO(Plain Old Java Object)对象的模式演进可能会引起不兼容的问题
【2月更文挑战第6天】在Flink实时任务中,POJO(Plain Old Java Object)对象的模式演进可能会引起不兼容的问题
19 3
|
2月前
|
消息中间件 SQL Java
flink问题之Application 模式下启动失败如何解决
Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。本合集提供有关Apache Flink相关技术、使用技巧和最佳实践的资源。
49 0
|
2月前
|
资源调度 Kubernetes Java
Flink--day02、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
Flink--day022、Flink部署(Yarn集群搭建下的会话模式部署、单作业模式部署、应用模式部署)
134 5
|
2月前
|
消息中间件 SQL 关系型数据库
Flink数据源问题合集之设置成批量模式如何解决
Flink数据源是指Apache Flink用于读取外部系统数据的接口或组件;本合集将探讨Flink数据源的类型、配置方法和最佳实践,以及在使用数据源时可能遇到的错误和解决方案。
30 2
|
3月前
|
资源调度 监控 API
在Flink中,通过YARN模式进行峰谷动态并行度扩容缩容可以使用 Flink 自带的动态调优功能
在Flink中,通过YARN模式进行峰谷动态并行度扩容缩容可以使用 Flink 自带的动态调优功能【1月更文挑战第6天】【1月更文挑战第26篇】
145 1

热门文章

最新文章