1. 云栖社区>
  2. 全部标签>
  3. #etl#
etl

#etl#

已有0人关注此标签

内容分类:
博客 | 问答 | 视频 | 资料 |

基于 Flink 的典型 ETL 场景实现

作者:买蓉 · 美团点评高级技术专家整理:赵阳(Flink 社区志愿者)校对:苗浩冲(Flink 社区志愿者) 本文将从数仓诞生的背景、数仓架构、离线与实时数仓的对比着手,综述数仓发展演进,然后分享基于 Flink 实现典型 ETL 场景的几个方案。

架构 消息队列 etl 数据仓库 Image 存储

基于实时ETL的日志存储与分析实践

日志大数据下的鱼和熊掌 我们正处于大数据、多样化数据(非结构化)的时代,实时的机器数据快速产生,做一家数据公司的核心之一是如何充分利用好大量日志数据。 由此背景,对日志的采集、存储、分析、管理也提出了更高的挑战,其中包括鱼和熊掌的选择问题: 鱼:成本高昂可能导致数据被删除,由此错过了价值发现。

大数据 OSS etl 日志 SLS Image 索引 存储

BIGO 实时计算平台建设实践

从业界来看,实时化的趋势正在加速,本文将介绍 BIGO 基于 Flink 的实时计算平台的建设经验和成果。

大数据 监控 etl 高可用 配置 集群 Hive

Serverless对日志服务中的数据进行ETL处理

通过日志服务+函数计算ETL,快速完成日志采集、加工、查询、分析和展示。

大数据 etl 函数 日志 数据处理 Image 弹性计算 aliyun 存储

都在说实时数据架构,你了解多少?

本文从上述现状及实时数据需求出发,结合工业界案例、笔者的实时数据开发经验, 梳理总结了实时数据体系建设的总体方案。

大数据 架构 消息队列 etl SQL 日志 数据处理 数据仓库 数据分析 string 存储 流计算 flink 实时计算 数据体系

[ETL实践指南]基于Kettle的MaxCompute插件实现数据上云

本文用到的 阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps 简介 Kettle是一款开源的ETL工具,纯java实现,可以运行于Windows, Unix, Linux上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑。

大数据 阿里云 mysql etl http 数据库 配置 数加 aliyun JDBC 插件 Kettle MaxCompute ATA 数据上云

Netflix:如何打造开放协作的实时 ETL 平台?

本文由 Netflix 高级软件工程师徐振中分享,内容包含有趣的案例、分布式系统基础方面的各种挑战以及解决方案,此外还讨论了其在开发运维过程中的收获,对开放式自助式实时数据平台的一些新愿景,以及对 Realtime ETL 基础平台的一些新思考。

大数据 etl 数据处理 数据库 数据仓库 微服务 Processing 解决方案 分布式系统 流计算 flink 实时计算 数仓

【热点】Kafka与传统中间件(MQ,ETL,ESB)的比较

自从Linkin开源Kafka之后,它似乎成了可以叫嚣所有传统消息中间件产品的行业新宠。事实上他也确实成为了大规模消息、微服务解耦以及可靠轻量流处理的业界标准解决方案。 我们知道在传统企业的数据汇聚层,往往会涉及到四到五种产品或者是开源的框架并且支持高可用和横向扩展。

分布式 消息系统 大数据 架构 开发框架与中间件 实时系统 消息队列 etl 高可用 数据库 数据仓库 微服务 消息中间件 中间件 MQ

实时计算的应用场景都有哪些?

实时计算广泛应用于大数据实时化的场景,从简单到详细,可以按照已有流处理系统、部门场景和技术领域进行划分。 说明 更多场景案例请参见阿里云实时计算产品案例和解决方案汇总。 已有流处理系统 通常,如果您本地已安装Flink、Storm或Spark Streaming系统,可以直接迁移到实时计算产品。

大数据 etl 数据流 数据分析 aliyun 索引 报表 html

SLS数据处理实践:加工延迟篇

在日志服务,数据加工功能(功能介绍)用于完成对Logstore数据的预处理,为后续的分析阶段准备数据。本文主要介绍数据加工实践中可能遇到的延迟问题,帮助大家理清延迟现象背后的原因,以及如何去监控、解决延迟问题。

etl 日志 日志服务 SLS 数据处理 Image cdn 正则表达式 aliyun html 延迟 预处理 数据加工

菜鸟供应链实时数仓的架构演进及应用场景

菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应链数据团队在实时数据技术架构上的演进,以及在供应链场景中典型的实时应用场景和 Flink 的实现方案。

大数据 架构 监控 etl 数据处理 数据库 消息中间件 流计算 flink 实时计算

覆盖电商、推荐、ETL、风控等多场景,网易的实时计算平台做了啥?

目前网易流计算规模已经达到了一千多个任务,2 万多个 vcores 以及 80 多 T 的内存,网易流计算覆盖了绝大多数场景,包括广告、电商大屏、ETL、数据分析、推荐、风控、搜索、直播等。

分布式 大数据 监控 etl SQL 日志 模块 数据处理 高可用 数据库 电商 流计算 flink 实时计算 实时数仓

DataWorks实时同步/实时ETL/批同步ETL灰度邀测中

DataWorks实时同步功能可以支持多种实时数据源(Kafka、MySQL Binlog,Oracle CDC等),可以将实时消息数据经过一些列处理后再写入目的数据源。同时在此前DataWorks数据集成强大EL(Extract-Load)能力基础之上,增加了数据处理能力(Transform),实现了完整了ETL链路。

etl Oracle 数据处理 数据库 Image 钉钉 同步 数据同步 binlog MaxCompute

阿里云Data Lake Analytics正式商业化

产品介绍: Data Lake Analytics是Serverless化的交互式联邦查询服务。无需ETL,使用标准SQL即可分析与集成对象存储(OSS)、数据库(PostgreSQL/MySQL等)、NoSQL(TableStore等)数据源的数据适用客户: 全网发布功能: 阿里云Data Lake Analytics正式商业化,无需ETL即可开启异构数据源的联邦实时分析能力。

PostgreSQL NOSQL OSS mysql etl SQL 数据库 aliyun 对象存储 异构数据 html

Data Lake Analytics,大数据的ETL神器!

0. Data Lake Analytics(简称DLA)介绍 数据湖(Data Lake)是时下大数据行业热门的概念:https://en.wikipedia.org/wiki/Data_lake。

数据存储与数据库 大数据 mysql etl aliyun string database 异构数据 html big data DataLakeAnalytics DLA

使用函数工作流+函数计算轻松构建 ETL 离线数据处理系统

随着云计算、人工智能、物联网等新技术的应用普及,人类产生的数据呈现出了爆发式增长的态势,对数据处理的需求能力也提出了越来越高的要求。数据成了重要资产,收集、处理数据的能力成为了核心竞争力,比如:应用服务的运行监控,运营数据的分析,以及深度学习的数据过滤、预处理等,这些对已有数据的处理能力将直接影响服务的运营效率。

etl 数据处理 Mapreduce 函数计算 函数工作流

Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)

如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数据分析平台。

大数据 架构 etl 性能 数据流 平台架构 数据分析 schema 存储 流计算 flink 实时计算 流数据

你真的需要数据湖吗?

数据湖已经成为许多大数据项目的基石,就因为它们在处理高速生成的大量数据时,提供了更容易、更灵活的选择。

大数据 架构 etl 数据库 数据仓库 解决方案 对象存储 存储

11
GO