应对大数据挑战 企业需共享式服务模型

简介:

本文讲的是应对大数据挑战 企业需共享式服务模型,大数据来袭!当企业准备把自己的MapReduce应用从实验环境迁移到生产环境时,共享式服务模型将为这种迁移提供许多重要功能,并加快迁移步伐。

  大数据是当今科技行业发展速度最快的领域之一。大数据具有前所未有的大量化、快速化和多样化三大特点,这些是许多新技术背后的驱动力,这些技术可帮助企业处理大数据带来的多种新问题。

  在诸多的新兴解决方案中,Hadoop和MapReduce被视为是两种大有希望的方法,可高效管理和分析大数据。但目前针对MapReduce应用的运行时引擎还无法提供足够功能来满足企业希望在生产环境中部署MapReduce应用的实际需求。

  对企业IT部门来说,先进的运行时引擎应该是这样一种管理工具:它可以在满足高标准服务水平协议(SLA)的同时,支持企业里的各业务部门。这类管理工具应该能够支持混合类型的工作负载,包括MapReduce应用及业务部门在共享式网格上智能化提交的其他应用。

  此外,如今的IT部门正在经历重大转变。在许多情况下,IT部门不再只是个成本中心,相反,它被视作是支持企业里各业务部门的服务提供者。预算有限、工作负载需求加大,使得IT部门面临巨大的压力,必须进一步充分利用现有的基础架构,最大限度地提高总的资源利用率。

  让在基础架构方面的投资迅速获得回报是IT部门在做采购决策时最重要的考量因素之一。能充分利用现有的基础架构,满足更高的工作负载需求,并实时动态地满足需求,进一步节省成本,提高投资回报,无疑是企业希望寻找的解决方案。

  为了支持MapReduce应用等新型应用,IT部门迫切需要一种共享式服务运行时平台以获得更好的性能、更高的资源利用率、自动监控和诊断功能,同时也需要IT基础架构能提供更高级的应用生命周期支持。

  何谓共享式服务模型?

  共享式服务模型是指这样一种基础架构平台:它允许多个应用(无论其类型和要求是什么)能够在共享式基础架构上并行执行。共享式服务模型常常由一种先进的应用调度和资源管理引擎来管理,为它所支持的企业里的多个业务部门提供有保障的服务。

  共享式服务IT模型提供以下几个重要好处:

  •少花钱多办事

  •迅速获得基础架构方面的投资回报

  •提供更好的可管理性

  •有更好的可扩展性和灵活性以支持不断变化的应用需求

  •利用收费政策,让IT部门的角色从成本中心转变成盈利中心

  现有的Hadoop MapReduce运行时引擎面临的挑战

  遗憾的是,目前MapReduce运行时引擎的Hadoop实现无法提供上述的共享式服务功能。这归因于Hadoop作业跟踪器(Hadoop JobTracker)的基本架构设计——Hadoop作业跟踪器是一个管理层,在运行期间为MapReduce作业提供必要的服务。

  目前的Hadoop作业跟踪器还无法把作业调度逻辑与资源管理逻辑分离开来,这直接导致了下列重大缺陷:

  •缺少企业级能力。在任何一个时间,只有一个MapReduce应用可以在集群上运行。因而,资源变成了静态的和用途单一的;而应用也是串行执行,而不是并行执行,导致无法有效利用的资源、形成烟囱式的IT环境,限制了可扩展性。

  •作业跟踪器成为单一故障点。如果作业跟踪器出现故障,所有运行中的作业都将停止。

  很显然,目前Hadoop作业跟踪器能力有限,无法提供IT部门在生产级环境中部署MapReduce应用所需的共享式服务功能。

  借助Platform Symphony MapReduce提供共享式服务

  Platform Symphony MapReduce是一种生产级、分布式的运行时引擎,用于管理规模化的大数据应用。Platform Symphony MapReduce为企业运行大数据应用提供了下列独特好处:

  •能够为IT部门带来一种共享式服务平台

  •提高资源利用率,加大基础架构方面的投资回报

  •能够在企业里实现完善的服务水平协议

  •提供更高的性能、缩短获得结果的时间

  •简化IT管理,降低管理复杂IT环境的总成本

  •加强IT敏捷性

  如何部署共享式服务模型?

  企业应该视不同的业务要求使用以下方法部署共享式服务模型:

  1. “烟囱式共享模型”——为不同的业务部门提供有保障的资源。IT部门根据不同业务部门的特定需求,为它们提供有保障的资源。业务部门向集中式IT部门请求一定数量的资源,专门供自己使用。然后,那些请求被定义为策略,加入到资源分配方案中。不同业务部门之间不共享资源。集中式IT部门负责管理资源分配、系统监控和故障排除。

  2. “代理式共享模型”——企业内部跨各职能领域的资源共享。企业内部的不同职能部门共享一组通用的IT资源,资源共享策略根据不同业务部门的特定需求来予以定义,然后加入到资源分配方案中。不是为某个业务部门单独分配静态资源,而是通过动态共享整个基础架构,从而为用户提供有保障的资源。

原文发布时间为:2012-04-23

本文作者:    李隽

本文来自云栖社区合作伙伴IT168,了解相关信息可以关注IT168


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
750 2
|
5月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
75 0
|
1月前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
31 1
|
8天前
|
分布式计算 大数据 Hadoop
【经验分享】用Linux脚本管理虚拟机下的大数据服务
【经验分享】用Linux脚本管理虚拟机下的大数据服务
15 1
|
1月前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
2月前
|
机器学习/深度学习 分布式计算 监控
大模型开发:你如何使用大数据进行模型训练?
在大数据模型训练中,关键步骤包括数据准备(收集、清洗、特征工程、划分),硬件准备(分布式计算、并行训练),模型选择与配置,训练与优化,监控评估,以及模型的持久化与部署。过程中要关注数据隐私、安全及法规遵循,利用技术进步提升效率和性能。
91 2
|
2月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
346 1
|
4月前
|
数据可视化 大数据 数据挖掘
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
|
5月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
126 1
|
5月前
|
Prometheus 数据可视化 Cloud Native
助力工业物联网,工业大数据之服务域:可视化工具Grafana介绍【三十八】
助力工业物联网,工业大数据之服务域:可视化工具Grafana介绍【三十八】
106 1

热门文章

最新文章