数据中台构建产品Dataphin到底能支持哪些数据源?

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介: 作者:王腾业务数据存储是业务系统最基本的构成,构建数据中台,就是要将这些数据集中起来放到一个有更强算力的地方集中处理,所以对于数据集成的能力是构建数据中台最基本要求;从存储的发展历程来看,由于不同的业务场景需求,带来了数据存储的不同发展路径,在企业发展中随着业务规模的变化,也会选择不同的存储来支撑.

作者:王腾 [ 更多内容详见数据中台官网 https://dp.alibaba.com ]
业务数据存储是业务系统最基本的构成,构建数据中台,就是要将这些数据集中起来放到一个有更强算力的地方集中处理,所以对于数据集成的能力是构建数据中台最基本要求;
从存储的发展历程来看,由于不同的业务场景需求,带来了数据存储的不同发展路径,在企业发展中随着业务规模的变化,也会选择不同的存储来支撑,所以每个企业一定会存在异构存储,如何将多源异构存储中的数据集成起来是企业做数据中台需要面临的一个巨大问题;
当然,目前行业内有很多人采用一些开源技术组件来实现,比如GitHub上的DataX、HData等,但是由于技术组件的易用性较弱,对于分析师和模型师而言,学习效率和使用便捷度还有待提高;因此集中式、界面化的工具尤为重要;
不久前我们就接触过一个客户,他们是一家有着大概十多年发展历史的零售企业,有线上渠道也有线下自营店,企业发展一直都比较重视信息化,所以基于Oracle的ERP系统、基于MySQL的APP应用、基于ES的搜索系统、基于HBase的数据服务系统,还有第三方提供的POS服务,每月同步账单;经年累月,系统变得比较复杂,而且没有当下流行的业务中台架构;
在和客户的业务方、IT部门沟通过程中了解到,目前最首要的需求是希望可以把这些数据统一管理起来,并且在业务上能够发挥一些价值。基于客户诉求和基础信息的了解,目前虽然远期的蓝图不是很清楚,但是短期内对于数据建设的方向是明确的,先完成数据的集成工作,然后再挖掘数据业务价值,当然集成的数据内容要与业务价值考量关联,否则盲目集成,也只是转存了一份数据而已;
基于这些判断,系统梳理了下客户的系统以及使用的存储;
梳理结果如下:
image

整体IT信息如下:
信息系统:六大模块(前端业务APP、营销工具、运营平台、供应链平台、内部管理平台、OA系统)
存储类型:
关系型数据库:MySQL、Oracle、PostgreSQL
无结构数据存储:FTP、日志文件、ElasticSearch、线下CSV(Excel文件)
NoSQL存储:HBase
集成目标:
MaxCompute(已采购)
集成工具
公共云Dataphin
根据对系统存储和工具的梳理,数据流形式如下:
image

在整个集成数据流设计中,主要使用的是Dataphin产品,目前存储数据梳理中用到的类型都可以支撑到,更重要是界面化操作,入门门槛比较低,维护和管理起来比较简单,配置下数据源,设置下数据从来源到目标的mapping关系即可。

Step 1. 新建数据源
image

Step 2. 配置映射关系
image

Step 3. 发布生产环境
image

这样一个数据同步任务就创建好,客户这边大概有12个存储源约200个数据表做上云,大概2天的时间就完成了,因此,工具还是很重要的!
我们在项目中所使用的数据集成产品Dataphin就是一个非常方便的工具。
Dataphin数据同步支撑了数据上云最基础的能力,只有数据上云才有可能谈论数据中台建设和数字化转型;
Dataphin数据同步定位于数据上云的管道,集成多源异构存储中的数据,构建数据中台建设的基础原料;在数据同步的设计中,首先将多类型存储介质的元数据进行了标准化,基于这种标准化实现了前端配置的一致体验,避免填写大量的JSON文件进行同步配置的定义,简化配置操作,以提升工程师开发阶段的体验;同时,兼顾客户最终价值需求,即数据能够稳定、高效地完成传输,实现上云,因此数据同步设计的过程中也是非常关注数据同步的性能指标;
目前我们已经实现12种来源存储类型以及14种目标存储类型的支持;覆盖了当前客户使用的大多数数据源类型;同时,由于采用插件式的设计方法,对于异构数据源提供了快速扩展的能力;
image

按照存储类型划分,保持与DataX定义的标准一致:

  • RDBMS关系型数据库
  1. MySQL
  2. SQL Server
  3. Oracle
  4. PostgreSQL
  5. DRDS
  6. Vertica
  7. 协议支持DB
  • 数仓数据存储
  1. AnalyticDB(只写)
  2. ODPS
  3. Hive
  • NoSQL存储
  1. MongoDB
  2. HBase
  • 无结构化数据存储
  1. HDFS
  2. FTP
  3. ElasticSearch(只写)
    Dataphin数据同步提供了强大的数据传输能力,帮助企业数据高效上云,打破数据孤岛,构建数据中台!

结尾: [ 更多内容详见数据中台官网 https://dp.alibaba.com ]
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
7天前
|
SQL Cloud Native 数据挖掘
云原生数据仓库产品使用合集之在使用 ADB 进行数据分析处理时,出现分区倾斜的情况,如何解决
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之如何使用ADB MySQL湖仓版声纹特征提取服务
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库产品使用合集之阿里云云原生数据仓库AnalyticDB PostgreSQL版的重分布时间主要取决的是什么
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之ADB MySQL湖仓版和 StarRocks 的使用场景区别,或者 ADB 对比 StarRocks 的优劣势
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
运维 Cloud Native 关系型数据库
云原生数据仓库产品使用合集之原生数据仓库AnalyticDB PostgreSQL版如果是列存表的话, adb支持通过根据某个字段做upsert吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
1天前
|
存储 SQL 关系型数据库
【LLM】基于pvVevtor和LangChain构建RAG(检索增强)服务
【5月更文挑战第4天】基于pgVector和LangChain构建RAG检索增强服务
|
7天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之在云数据仓库ADB中,GROUP BY操作中出现NULL值,如何解决
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
SQL 分布式计算 关系型数据库
云原生数据仓库产品使用合集之可以把ADB MySQL湖仓版数据库做成页面查询的数据库吗
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
存储 运维 监控
云原生数据仓库产品使用合集之怎样才可以提高云数据ADB的执行速度
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
7天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库产品使用合集之在ADB中,如何将源数据的多表(数据结构一致)汇总到一张表
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。