用Aliyun E-MapReduce集群的sqoop工具和数据库同步数据如何配置网络

简介: 如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。 一.RDS 经典网络RDS 想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。 经典网络的RDS

如果您的E-MapReduce集群需要和集群之外的数据库同步数据,需要确保网络是联通的。本文就RDS,ecs自搭,云下私有数据库三种情况,分别介绍如何配置网络。

一.RDS

经典网络RDS

想要访问经典网络RDS,EMR(E-MapReduce,下同)最好也指定用经典网络。

经典网络的RDS 可以设置内网地址和外网地址。由于经典网络EMR集群只有master节点可以访问公网,并且sqoop是用map任务同步数据可能在任意节点上运行,所以sqoop任务需要配置连接RDS的内网地址来连接。另外,需要确保EMR集群的内网ip在RDS白名单里。

图1. RDS内网地址
rds_

图2. EMR创建集群指定经典网络类型
_

VPC网络RDS

如果RDS在VPC网络下,EMR集群也需要指定用VPC网络。最好让EMR集群和RDS在同一个vpc网络内,这样可以直接访问RDS地址。如果在不同的vpc网络下,需要通过高速通道打通网络连接。

图3. EMR创建集群指定VPC网络
vpc_

二. ecs自建数据库

经典网络

访问经典网络的自建数据库跟经典网络的RDS类似,也需要EMR集群指定使用经典网络,访问自建数据库的内网地址。区别是需要将数据库所在的ecs实例和EMR集群的实例放在一个安全组内。可以在ecs控制台-安全组-管理实例将数据库ecs实例添加进EMR集群的安全组里。

图4. 加入安全组
_

VPC网络

访问VPC网络的自建数据库跟VPC网络的RDS类似,EMR集群指定使用VPC网络。额外要做的是将数据库ecs实例和EMR集群实例放到同一个安全组里

三. 云下私有数据库

有两种方式访问云下私有数据库,一种是绑定弹性IP(EIP)访问数据库的公网地址,一种是将云下数据库通过高速通道和VPC网络互联

绑定EIP

如果云下私有数据库可以通过公网访问,推荐EMR集群使用VPC网络。

创建一个VPC网络的EMR集群,创建成功后在ecs控制台给集群的每个ecs实例绑定一个EIP,就可以访问私有数据库的公网地址了。绑定的操作方式在ecs控制台-ecs实例后的管理-配置信息-更多-里面选择绑定弹性IP.

图5. 绑定弹性IP
_ip

高速通道

如果私有数据库不能在公网暴露,可以创建一个VPC网络类型的EMR集群,通过高速通道连接私有IDC和阿里云上的vpc集群。高速通道详情请参见
高速通道产品文档

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
目录
相关文章
|
8天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
26天前
|
机器学习/深度学习 自然语言处理 数据处理
大模型开发:描述长短期记忆网络(LSTM)和它们在序列数据上的应用。
LSTM,一种RNN变体,设计用于解决RNN处理长期依赖的难题。其核心在于门控机制(输入、遗忘、输出门)和长期记忆单元(细胞状态),能有效捕捉序列数据的长期依赖,广泛应用于语言模型、机器翻译等领域。然而,LSTM也存在计算复杂度高、解释性差和数据依赖性强等问题,需要通过优化和增强策略来改进。
|
11天前
|
网络协议 Linux
在Linux中,管理和配置网络接口
在Linux中管理网络接口涉及多个命令,如`ifconfig`(在新版本中被`ip`取代)、`ip`(用于网络设备配置)、`nmcli`(NetworkManager的CLI工具)、`nmtui`(文本界面配置)、`route/ip route`(处理路由表)、`netstat/ss`(显示网络状态)和`hostnamectl/systemctl`(主机名和服务管理)。这些命令帮助用户启动接口、设置IP地址、查看连接和路由信息。不同发行版可能有差异,建议参考相应文档。
19 4
|
2天前
|
机器学习/深度学习 数据可视化 测试技术
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
深度学习:Keras使用神经网络进行简单文本分类分析新闻组数据
|
3天前
|
机器学习/深度学习 API 算法框架/工具
R语言深度学习:用keras神经网络回归模型预测时间序列数据
R语言深度学习:用keras神经网络回归模型预测时间序列数据
14 0
|
3天前
|
机器学习/深度学习 数据采集 TensorFlow
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
R语言KERAS深度学习CNN卷积神经网络分类识别手写数字图像数据(MNIST)
23 0
|
3天前
|
存储 算法 前端开发
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
R语言中贝叶斯网络(BN)、动态贝叶斯网络、线性模型分析错颌畸形数据
26 0
|
3天前
|
数据采集 数据可视化
R语言用相关网络图可视化分析汽车配置和饮酒习惯
R语言用相关网络图可视化分析汽车配置和饮酒习惯
|
3天前
|
机器学习/深度学习 数据可视化 网络架构
matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类
matlab使用长短期记忆(LSTM)神经网络对序列数据进行分类
|
4天前
|
Android开发 开发者
Android网络和数据交互: 请解释Android中的AsyncTask的作用。
Android's AsyncTask simplifies asynchronous tasks for brief background work, bridging UI and worker threads. It involves execute() for starting tasks, doInBackground() for background execution, publishProgress() for progress updates, and onPostExecute() for returning results to the main thread.
5 0