本地 vs. 云:大数据厮杀的最终幸存者会是谁?— InfoQ专访阿里云智能通用计算平台负责人关涛

简介: 本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?InfoQ 将就上述问题对阿里云智能通用计算平台负责人关涛进行了专访。

作者:赵钰莹
原文标题 本地 vs 云:大数据厮杀的最终幸存者会是谁?

image
一家企业什么时候会决定上云?过去,这个问题的答案可能是当企业发现需要购买新的硬件进行新一轮资本投入时,往往倾向于考虑另一种替代方案,比如云,这可能更多还是从成本方面考虑;或者,当企业出现某种弹性计算需求时,云平台是非常好的实现 IT 资源“削峰”的方案。

不同于现有技术边界的“替换”,如今,这个问题的答案可以再加上一条:技术边界的“扩张”。当企业需要某种能力,比如 AI 或者大数据,但自身技术实力达不到或者企业核心竞争力不在技术本身,此时就可能会考虑上云,甚至这已经成为不少企业选择云平台的重要原因。通过选择云平台,企业实现了自己技术边界的扩张,从而为业务边界扩张提供技术上的保障。

过去几年,云平台大数据服务越来越成熟,单就这一项,主流云厂商可提供的服务列表就达到数十种,本地大数据服务的声音似乎越来越弱,这在 Cloudera 与 Hortonworks 合并之后尤为明显。有分析人士指出,Hadoop 与 Spark/Flink 等流技术的融合已经在云平台发生,这让 Cloudera 和 Hortonworks 的基础产品出现落后。巧合的是,Spark 商业化公司 DataBricks 选择了一条不同于 Cloudera 与 Hortonworks 的软件发行之道,DataBricks 一直坚持走云上订阅方式,从而在商业上更加领先。据此,本地大数据服务是否进入消失倒计时?云平台大数据服务最终到底会趋向多云、混合云还是单一公有云?集群规模增大,上云成本将难以承受是误区还是事实?

InfoQ 将就上述问题展开系列探讨,追踪采访数位行业内云计算和大数据相关方向技术专家,从他们的观点中获取答案。本期采访嘉宾——阿里云智能通用计算平台负责人关涛。

云平台 vs 本地大数据服务

在对比云平台和本地大数据服务之前,我们先来探讨一个基本问题:不同量级、不同技术能力的企业是否都适合上云,这也是企业上云之前必须想明白的问题。我们经常听到一句话:未来的云计算会成为像水电煤一样的基础设施,暂且不论这句话是否完全正确,中国目前的上云进程的确在加快,如果要成为必备基础设施,势必需要匹配所有量级、所有技术能力的企业。

对于互联网初创型企业,其特点是业务模式和规模高度不确定,数据量小,计算场景不确定,资金有限且没有自己的数据技术力量。关涛表示,对这类型企业而言,云大数据服务可以帮助降低大数据使用门槛,让企业将有限的人力和物力都放在业务层面,快速搭建并为不确定的未来发展预留弹性能力。这种类型的客户的需求关键字是:灵活和全面。

对于中大型互联网企业,其通常拥有自己的集群和数据,业务相对稳定且有 SLA 要求,甚至具备非常成熟的数据团队,这部分企业的技术能力或许足够满足业务需求,上云所能带来的好处就是降低甚至免除运维,保障 SLA 并提升安全能力,同时在性能、弹性等方面提供更低成本的服务。 需求关键字:稳定和成本。

对于传统客户,这部分企业往往更加谨慎,且原有数据中心较为庞大,整体迁移需要考虑的因素非常多,通常需要一整套解决方案,这部分企业往往也最在意云计算的成本、稳定性和安全性等问题。需求关键字:解决方案。


成本

云计算本身是一个需要重投资的领域,虽然有不少公司加入,但排名靠前的依旧集中于几家资本和技术力量比较雄厚的公司。相对于本地大数据服务,云平台大数据服务的性能、稳定性、成本和安全性一直是讨论的焦点。关涛表示,云厂商在数据中心选址基建(例如需要综合考虑电力成本和容量因素)、硬件建设、带宽网络建设(例如需要独立双链路网络保证)、存储、CDN 分发、安全加固等方面都投入了巨大精力,资本投入在百亿甚至千亿级别,中小企业自建服务的资本和技术投入显然无法达到这一程度。

对于中小企业而言,上云是个相对轻松的话题,首先数据资产量小尚可轻松挪动,且可享受云厂商带来的技术优势;其次,业务体量相对较小,整体使用成本较低。但是,不少人认为“当集群规模达到一定程度,云平台的成本会变得非常高”。对此,关涛认为,虽然云计算是个按需付费的资源,但小型数据中心的硬件启动成本并不低,如果企业自行搭建,还需要考虑其中的人力成本,这部分隐性成本经常被忽略。

从软件层面来看,主流云厂商在技术层面的投入非常大,这不仅仅是技术研发层面的资金支持,阿里云平台所提供的服务大都在内部业务经过长时间试运行,达到稳定以后才开放给用户,这是普通公司很难达到的,尤其是中小企业的基础设施上云很难投入到这个级别,集中力量打造业务层面的差异性优势才是这类型企业的立足关键,而不是纠结于底层的基础设施。

当然,如果企业具备一定线下集群,上云确实需要一定工作量和迁移成本,这包括网络打通、数据、作业、应用迁移等。线下规模越大,工作量就越大,这是目前阻碍企业上云的重要挑战。关涛表示,这部分工作其实是阶段性的,随着云技术的发展,企业可以直接或间接享受技术红利。此外,云厂商提供了不少迁移技术,比如多种类型的数据运输与搬迁工具,基于专线的数据上传和混合云技术等。


安全

安全是企业对云计算最早也是最大的顾虑,上云肯定无法完全规避安全风险,但如果和自建机房相比,云平台相当于多了一重保险。如果企业自建机房,部署某个版本的 Linux 系统,也不见得将补丁打全,同样存在安全风险。关涛表示,阿里云在安全方向(包括内核漏洞修补、DDos 防护、主动漏洞扫描、权限管理、隐私保护等)上有非常大的投入,安全性比自建要好的多。

云厂商 vs 云上自建大数据服务

对于一些互联网企业而言,并不纠结是否上云,而是在考虑选择云厂商提供的大数据服务还是选择基于云平台自建,这些企业往往具备一定技术能力并拥有原始业务积累。关涛认为,从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如 NetFlix 已经将所有业务迁移至公有云;专注专有云和 IaaS 的 Cloudera 和 Hortonworks 已经合并过冬。

从发展趋势来看,这是一个云服务逐步成熟与客户认知逐步发展的过程,就好比每一项新技术都经过了长期市场论证一样。关涛认为,客户认知应该会从最开始的怀疑(安全性、稳定性等)到逐步尝试,到上云,再到大规模依赖;从数据中心和主机托管,到依赖 IaaS,再到大规模应用无服务计算、PaaS 和 SaaS;从专有云部署到混合云,再到公有云。

其次,随着大数据与 AI 技术的发展成熟,云厂商在该领域的竞争优势已经逐步从“能做”变成“又快又好”。云计算厂商的规模优势能够建立更高的竞争门槛,这是很多企业自建所达不到的。

混合云和多云皆是过程,单一云平台可能是主流

当企业确定选择云厂商提供的大数据服务时,又会出现新的问题:如何从这么多种云平台大数据服务中选择最符合自己业务发展需求的?是选择混合云、多云还是单一公有云平台?

去年,一向对混合云不感兴趣的 AWS 推出了不少混合云服务,这让不少企业开始推测云计算的未来将是混合云或者多云。对此,关涛更倾向于多云和混合云皆是中间过程,最终的大方向应该是单一公有云的观点。他补充道,无论是混合云还是多云都存在跨云管理的问题,用户需要适配一套或者多套云系统,并将系统间数据和业务打通协调,比本地或者单一云平台更加复杂。

现阶段,依照用户需求不同,本地部署、混合云(作为中间形态)与云平台部署三种情况都可能出现。但是,长期来看,随着云平台的逐渐成熟和用户认可,从成本和效率角度出发,单一云平台或许会是主流。

关于公有云平台,企业主要顾虑的问题就是单一供应商绑定。一旦绑定,数据和业务迁移困难,后续发展可能缺乏选择;一旦云平台出现故障,是否有异构容灾能力,是否会对业务造成不可逆的影响等。

关涛认为,如今的云服务分层解耦越来越清晰,各基础服务接口未来会更加标准,例如容器化和 K8S 等,这些标准化服务会大幅降低用户被单一云平台绑定的顾虑。此外,主流云厂商已经在提供一定程度的异构容灾能力,例如阿里云的 3AZ 方案,可以保证跨数据中心的可靠性,技术上能够满足异构容灾需求;如果用户追求极致容灾能力,有可能选择混合云或者多家云厂商,这需要在多云平台之上,再做一层数据管理和业务同步逻辑,会给架构带来很大的技术和成本压力。当然,这还最终取决于用户的需求,只是目前这种选择应该比较少,例如,在金融数据库领域,企业很少同时选择两种数据库方案。


结语

从长线来看,关涛认为,用户自建本地大数据服务会逐渐消亡。就国外云计算的发展进程来看,很多大企业选择上云看重的可能并不是 IaaS 层面的能力,而是大数据和 AI 等偏上层的能力,这些现象足以说明用户不仅会用 IaaS 的能力,并且可能会被上层能力吸引。

据此,阿里云大数据服务接下来将集中对如下几方面进行改进:一是作为大数据引擎,随着数据爆发式增长和计算的无处不在,性能、成本、扩展性和稳定性仍然是技术重点;二是非文本类数据的处理能力,包括识别、处理音、视、图等新数据格式,例如短视频推荐场景;三是非关系型数据处理,例如图计算、Graph Embedding;四是 AI for BigData,比如在海量数据的前提下,基于 AI 的智能数据管理、智能建模与数据优化等。

各位网友,你如何看待云平台和本地大数据服务之间的关系呢?你所在的企业又是如何选择的呢?

本文转载于InfoQ,原文链接 https://www.infoq.cn/article/i8BVDSC9WAcOT*yuqxJH

了解阿里巴巴大数据计算服务访问 https://www.aliyun.com/product/odps

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
SQL 人工智能 数据挖掘
阿里云DMS,身边的智能化数据分析助手
生成式AI颠覆了人机交互的传统范式,赋予每个人利用AI进行低门槛数据分析的能力。Data Fabric与生成式AI的强强联合,不仅能够实现敏捷数据交付,还有效降低了数据分析门槛,让人人都能数据分析成为可能!阿里云DMS作为阿里云统一的用数平台,在2021年初就开始探索使用Data Fabric理念构建逻辑数仓来加速企业数据价值的交付,2023年推出基于大模型构建的Data Copilot,降低用数门槛,近期我们将Notebook(分析窗口)、逻辑数仓(Data Fabric)、Data Copilot(生成式AI)进行有机组合,端到端的解决用数难题,给用户带来全新的分析体验。
110092 118
阿里云DMS,身边的智能化数据分析助手
|
2月前
|
人工智能 数据管理 Serverless
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
阿里云数据库走向Serverless与AI驱动的一站式数据平台具有重大意义和潜力
404 2
|
2月前
|
人工智能 运维 Cloud Native
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
、你如何看待阿里云数据库走向Serverless与AI驱动的一站式数据平台?
149 2
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
703 0
|
2月前
|
人工智能 数据管理 大数据
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
阿里云数据库走向Serverless与AI驱动的一站式数据平台是一个很有前景和意义的发展方向
33 2
|
4天前
|
自然语言处理 Cloud Native Serverless
通义灵码牵手阿里云函数计算 FC ,打造智能编码新体验
近日,通义灵码正式进驻函数计算 FC WebIDE,让使用函数计算产品的开发者在其熟悉的云端集成开发环境中,无需再次登录即可使用通义灵码的智能编程能力,实现开发效率与代码质量的双重提升。
|
18天前
|
机器学习/深度学习 分布式计算 数据挖掘
阿里云 MaxCompute MaxFrame 开启免费邀测,统一 Python 开发生态
阿里云 MaxCompute MaxFrame 正式开启邀测,统一 Python 开发生态,打破大数据及 AI 开发使用边界。
197 1
|
1月前
|
人工智能 IDE API
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
灵动指尖 :阿里云智能编码插件 更好的为IDE内置社区服务
|
1月前
|
存储 人工智能 自然语言处理
“智能+”时代,深维智信如何借助阿里云打造AI内容生成系统
随着数字经济的发展,线上数字化远程销售模式越来越成为一种主流,销售流程也演变为线上视频会议、线下拜访等多种方式的结合。根据Gartner报告,到2025 年60%的B2B 销售组织将从基于经验和直觉的销售转变为数据驱动的销售,将销售流程、销售数据、销售分析合并形成一致的运营实践。
395 0
“智能+”时代,深维智信如何借助阿里云打造AI内容生成系统
|
1月前
|
人工智能 DataWorks 数据可视化
心动基于阿里云DataWorks构建游戏行业通用大数据模型
心动游戏在阿里云上构建云原生大数据平台,基于DataWorks构建行业通用大数据模型,如玩家、产品、SDK、事件、发行等,满足各种不同的分析型应用的要求,如AI场景、风控场景、数据分析场景等。
334 1

相关产品

  • 云原生大数据计算服务 MaxCompute