MaxCompute同步数据的网络配置

简介: MaxCompute可以通过数据集成加载不同数据源(例如:MySQL数据库等)数据,同样也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已经集成到DataWorks作为数据同步任务进行配置、运行。您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute表任务,数据的导入和导出整个过程只需在一个平台上进行操作。

MaxCompute可以通过数据集成加载不同数据源(例如:MySQL数据库等)数据,同样也可以通过数据集成把MaxCompute的数据导出到各种业务数据库。数据集成功能已经集成到DataWorks作为数据同步任务进行配置、运行。您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute表任务,数据的导入和导出整个过程只需在一个平台上进行操作。
DataWorks数据集成是稳定高效、弹性伸缩的数据同步平台,致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。支持跨经典网络、专有vpc网络的数据同步以及本地IDC的数据同步。还支持20+种异构数据源,包括关系型数据库、大数据存储、非结构化存储、NoSql数据库之间的数据同步。
那么在使用DataWorks进行数据同步的过程中,源数据端和目的端数据源的网络连通性就尤为重要。本文主要描述数据集成的通用连通配置问题。

一.网络类型

经典网络:统一部署在阿里云的公共基础网络内,网络的规划和管理云负责,更适合对网络易用性要求比较高的客户。

专有网络VPC(Virtual Private Cloud):专有网络是您基于阿里云创建的自定义私有网络,不同的专有网络之间逻辑上彻底隔离。您可以在自己创建的专有网络内创建和管理云资源,例如ECS、SLB和RDS等。您也可以完全掌控自己的虚拟网络,包括选择自有的IP地址范围,划分网段以及配置路由表,网关。详情请参见:专有网络VPC
屏幕快照 2020-02-14 下午2.54.02.png

那么ECS 经典网络(Classic)和VPC专有网络特点和区别呢?
• 经典网络:采用三层隔离,是一个共享的基础网络。网络里的ECS实例都在一个共同的生态环境里。如果将经典网络比喻为城市那么网络里的实例就相当于一条街道的房屋或楼宇。房屋配套的围墙和门锁用以提供安全防护,其中围墙相当于安全组,门锁相当于安全组规则。为避免黑客侵入您需要时常关注安全组状况,避免漏设,并防止权限控制漏洞,一旦马虎,黑客便会伺机攻击您的ECS实例。所以经典网络的安全防护高度依赖安全组的权限控制。并且非常忌讳将安全组授权对象设置为0.0.0.0/0这相当于对外不设防风险非常大。
• 专有网络VPC:采用二层隔离是安全增强性网络,更是阿里云首推的独有的云上私有网络。网络里的实例都高度隔绝,相对于经典网络而言,VPC具有更高的安全性和灵活性。每组VPC相当于不同纬度的平行空间,空间之间既不会相交也不会重合,即使单个空间出现了问题也无法影响到其他的空间。即使您不小心忘记设置安全组规则,外人也无法踏足您的网络领域。要实现空间通信两组VPC之间需要建立高能量的高速通道才能通信。使用VPC还能帮您建立起精细的网络管理能力,通过建立虚拟交换机划分子网建立网络隔离机制。

本地IDC网络:您自身构建机房的网络环境,与阿里云网络隔离。

二.独享资源组和自定义资源组

独享资源组

独享资源组主要解决在数据同步过程中资源不足的问题,这时可以通过新增独享资源组的方式进行数据同步。独享资源模式下,机器的物理资源(网络、磁盘、CPU和内存等)完全独享。不仅可以隔离用户间的资源使用,也可以隔离不同工作空间任务的资源使用。此外,独享资源也支持灵活的扩容、缩容功能,可以满足资源独享、灵活配置等需求。独享资源组可以访问在同一地域下的VPC数据源,同时也可以访问跨地域的公网RDS地址。详情请参见:独享资源组


 说明

 •如果已经打通本地IDC和阿里云专有网络,您可以使用数据集成资源同步任务。请购买独享数据集成资源后,提交工单进行处理,详情请参见独享数据集成资源。
 • 独享数据集成资源无法访问阿里云经典网络。如果您的数据源是经典网络,建议使用默认资源组进行同步任务运行。
 • 独享数据集成资源组不支持跨区域的VPC数据库同步。
 • 如果需要在独享数据集成资源组上进行添加路由等操作,请提交工单进行申请。
 • 使用数据集成独享资源组时,请保证数据源自身所在机器可以被该资源组绑定的VPC访问。如果有安全拦截,请对相应的白名单放行,即在数据源侧的白名单添加该资源组绑定的VPC网段。


独享资源部署在DataWorks托管的专有网络(VPC)中,如果需要与您自己的专有网络连通,请进行专有网络绑定操作。具体步骤:
• 进入DataWorks管理控制台,单击概览中的资源组列表。
• 单击相应的资源后的专有网络绑定。

          说明:绑定专有网络前,您需要进行RAM授权,让DataWorks拥有访问云资源的权限。

屏幕快照 2020-02-14 下午2.57.14.png

  • 配置完成后,单击创建。

自定义资源组

DataWorks可以通过免费传输能力(默认任务资源组)进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增自定义资源组运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。详情请参见:自定义资源组

复杂网络环境主要包含以下两种情况:
(1)数据的来源端和目标端有一端为私网环境。
• VPC环境(除RDS)<->公网环境
• 金融云环境<->公网环境
• 本地自建无公网环境<->公网环境

(2)数据的来源端和目标端均为私网环境。
• VPC环境(除RDS)<->VPC环境(除RDS)
• 金融云环境<->金融云环境
• 本地自建无公网环境<->本地自建无公网环境
• 本地自建无公网环境<->VPC环境(除RDS)
• 本地自建无公网环境<->金融云环境

三.应用场景

本地IDC
• 有公网
• 无公网

ECS自建数据源
• 有公网
• 经典网络
• 专有网络

阿里云产品
• 实例模式添加数据源
• 有公网
• 经典网络
• 专有网络

独享资源组应用场景

场景一:VPC数据源和DataWorks不在同一个地域。独享数据集成资源不支持跨VPC访问,如果您的数据源与DataWorks项目不在同一个地域,操作如下:

  • 在DataWorks工作空间所在的地域创建一个专有网络。
  • 使用云企业网等打通数据源所在专有网络和工作空间所在地域创建的专有网络。
  • 购买与打通的专有网络同可用区的独享数据集成资源,并绑定已打通的专有网络。
  • 提交工单,进行后续网络打通的处理。

场景二:VPC数据源和DataWork在同一个地域。VPC数据源需要使用独享数据集成资源同步任务,需要购买与数据源同可用区的独享数据集成资源,绑定数据源所在的专有网络。如果绑定后同步任务仍然执行失败,请加入专有网络的IP网段至数据源的访问许可内。

自定义资源组的应用场景

• 保证运行资源:由于集群共享默认资源组,会存在水位变高导致任务长时间等待的情况。如果您对任务有较高的资源使用需求,可以使用自定义资源组来自建任务运行集群。
• 连通网络:由于默认资源组无法连通VPC环境下的数据库,您可以使用自定义资源组进行网络连通。
• 用于调度资源组:调度槽位资源紧张的情况下,您可以使用自定义资源组。
• 提升并发能力:默认资源组的运行槽位有限,您可以通过自定义资源组扩大槽位资源,允许更多的并发任务同时调度运行。

四.网络打通解决方案

• 云企业网使用场景示例,请参见云企业网
• 高速通道使用场景示例,请参见高速通道
• VPN网关使用场景示例,请参见VPN网关

更多阿里巴巴大数据计算技术和产品信息,可点击链接加入 MaxCompute开发者社区2群
https://h5.dingtalk.com/invite-page/index.html?bizSource=____source____&corpId=dingb682fb31ec15e09f35c2f4657eb6378f&inviterUid=E3F28CD2308408A8&encodeDeptId=0054DC2B53AFE745
或扫码加入
2群.png

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
2月前
|
DataWorks 关系型数据库 对象存储
dataworks数据集问题之同步任务如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
41 4
|
8天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
11 3
|
11天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
65 0
|
2月前
|
SQL 分布式计算 大数据
maxcompute开发环境问题之同步到生产环境失败如何解决
MaxCompute开发环境是指设置和配置用于开发MaxCompute项目的本地或云端环境;本合集将指导用户如何搭建和管理MaxCompute开发环境,包括工具安装、配置和调试技巧。
|
2月前
|
分布式计算 DataWorks NoSQL
MaxCompute资源问题之网络不通如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
34 2

相关产品

  • 云原生大数据计算服务 MaxCompute