玩转阿里云EMR三部曲-中级篇 集成自有服务

简介: 利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

作者:邓力,entobit技术总监,八年大数据从业经历,由一代hadoop入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。

引言

笔者近几年工作以架构为主,本系列文章旨在从系统架构层面提供一定参考和帮助。
本文默认阅读文章的小伙伴们有MR/SPARK等基础,文中不再重复介绍相关知识。
本文为玩转阿里云EMR系列第二篇,第一篇文章为基础介绍和样例实战,可以查看[玩转阿里云EMR三部曲-入门篇]()

集成自有服务与EMR

从2016公测到最新的EMR版本,成本控制与集成服务一直是我们需要解决的难题。成本可以通过按量集群控制,按照需求启动合理规模的集群并按小时付费。于是自有服务集成是关键问题

自有服务

各公司或者组织内部提供API接口/调度响应及其他类型的服务

  • 集成场景
  • 资源隔离
  • 弹性扩展
  • 高并发
  • 低成本

资源隔离:离线计算使用的自有服务不能和产品线公用,否则导致高并发情况下生产线体验下降
弹性扩展:随着离线计算的规模对应伸缩
高并发:提供高并发访问支持
低成本:成本可以按小时计费,并且没有额外费用

架构分析

平台下自有solr集群,离线计算任务需要利用solr集群查询获取文本相似的内容,直接使用生产线集群会降低用户访问体验甚至导致生产环境不可用。

那么是否可以利用EMR集成自有solr集群?

EMR引导操作

在启动EMR集群前可以初始化用户自定义脚本,创建用户自有服务或者环境。详细参考引导操作

引导操作分为两种类型:

  • 自定义操作

用户完全自定义脚本类型,任意服务或者环境都可以指定安装

  • 运行条件

基于EMR官方提供的run-if.py按条件执行
技巧:

  • 自定义操作下可以基于节点类型并安装指定的应用和服务
  • 自定义脚本内文件可以使用OSS存放

集成方案

1.利用引导操作在EMR集群MASTER服务器安装solr服务
2.利用引导操作在EMR集群所有节点安装solr服务

其中1只对于MASTER节点有高配置需求,2对于所有节点有高配置要求。1成本更低,2并发更高。根据实际按需选择。
这里选择方案2
注:使用方案1时需要判断节点类型

实现细节

基于方案2,利用EMR按量需求操作如下:
1.修改集群模板配置,选择高配机型,建议使用16C64G实例。在集群模板高级设置中,添加引导操作并保存
image

2.编写installSolr.sh并上传OSS

downloadJar() {
  mkdir  /mnt/work
  osscmd --id=xxxx --key=yyyy -H oss-cn-beijing-internal.aliyuncs.com --replace=true downloadallobject oss://zzz/jar/ /mnt/work/
}

installENV() {
  cd /mnt/work/lib/
  tar -xzf solr.tar.gz
  cd solr/bin
  ./solr start -p 8983
}

main() {
  downloadJar
  installENV
}

main

3.复制solr服务打包为tar.gz文件并上传至对应步骤2中的OSS://zzz/jar/路径

cp -r solr targetDir/
cd targetDir/
tar -czf solr.tar.gz solr
osscmd put solr.tar.gz oss://zzz/jar/

4.编写spark任务调用solr接口数据并验证返回值
由于采用的方案2,每个集群节点都有solr服务,此时可以利用本机的节点查询, 核心代码部分

#! /usr/bin/python
import requst, sys
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import SQLContext
...
def solrCaller(item):
  keyword=item['keyword']
  r=request.post('http://127.0.0.1:8983?q='+keyword)
  return r.text

if __name__ == "__main__":
    reload(sys)
    sys.setdefaultencoding('utf-8')
    conf = SparkConf().setAppName("solr spark with oss")
    conf = conf.set("spark.hadoop.fs.oss.impl", "com.aliyun.emr.fs.oss.OssFileSystem")
    sc = SparkContext(conf=conf)
    sqlContext = SQLContext(sc)
    indexRDD = sc.textFile("oss://xxx:yyy@zzz/data/")
    indexSQL = sqlContext.read.json(indexRDD)
    indexDF = sqlContext.sql("select keyword, id from indexSQL")
    indexDF.map(solrCaller).collect()

5.选用solr集成模板并执行作业流

更多思考

以上是使用过程中遇到的问题及解决方案,该方案还有提升空间,比如利用节点随机请求数据,可以进一步优化资源。

除次之外还可以利用引导操作安装各种环境,比如python依赖的分词包,mysql驱动等等。
如果集群无法满足并发需求,可以继续增加节点。包月集群可以使用弹性伸缩功能

总结:

利用EMR引导操作可以使用自定义脚本安装任意自有服务和环境,隔离计算和生产资源,并在极致成本控制下最大化并发和可扩展性。完整的自定义设计可以满足任意自有服务构建的集成需要。

欢迎对EMR及相关技术感兴趣的同学进钉钉群一起讨论 :)
image

相关实践学习
数据湖构建DLF快速入门
本教程通过使⽤数据湖构建DLF产品对于淘宝用户行为样例数据的分析,介绍数据湖构建DLF产品的数据发现和数据探索功能。
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
27天前
|
关系型数据库 分布式数据库 数据库
成都晨云信息技术完成阿里云PolarDB数据库产品生态集成认证
近日,成都晨云信息技术有限责任公司(以下简称晨云信息)与阿里云PolarDB PostgreSQL版数据库产品展开产品集成认证。测试结果表明,晨云信息旗下晨云-站群管理系统(V1.0)与阿里云以下产品:开源云原生数据库PolarDB PostgreSQL版(V11),完全满足产品兼容认证要求,兼容性良好,系统运行稳定。
|
1月前
|
Arthas 弹性计算 运维
阿里云ECS监控服务
阿里云ECS监控服务
403 2
|
1月前
|
监控 网络协议 API
阿里云BssOpenAPI是一个基于阿里云开放API的服务
【2月更文挑战第24天】阿里云BssOpenAPI是一个基于阿里云开放API的服务
140 6
|
1月前
|
前端开发 关系型数据库 MySQL
IDEA集成Docker插件打包服务镜像与运行【附Docker命令汇总】
IDEA集成Docker插件打包服务镜像与运行【附Docker命令汇总】
|
1月前
|
NoSQL Java Redis
小白版的springboot中集成mqtt服务(超级无敌详细),实现不了掐我头!!!
小白版的springboot中集成mqtt服务(超级无敌详细),实现不了掐我头!!!
255 1
|
1月前
|
SpringCloudAlibaba Dubbo Java
SpringCloud Alibaba集成Dubbo实现远程服务间调用
SpringCloud Alibaba集成Dubbo实现远程服务间调用
|
2天前
|
存储 开发工具 对象存储
Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析
Javaweb之SpringBootWeb案例之阿里云OSS服务入门的详细解析
9 0
|
12天前
|
网络协议 Java 物联网
阿里云服务器上搭建 MQTT服务
阿里云服务器上搭建 MQTT服务
|
12天前
|
域名解析 网络协议 应用服务中间件
阿里云服务器配置免费https服务
阿里云服务器配置免费https服务
|
1月前
|
分布式计算 运维 大数据
阿里云 EMR Serverless Spark 版免费邀测中
阿里云 EMR Serverless Spark 版,以 Spark Native Engine 为基础,旨在提供一个全托管、一站式的数据开发平台。诚邀您参与 EMR Serverless Spark 版免费测试,体验 100% 兼容 Spark 的 Serverless 服务:https://survey.aliyun.com/apps/zhiliao/iscizrF54
393 0
阿里云 EMR Serverless Spark 版免费邀测中