大数据来袭 传统IT厂商紧握Hadoop机遇

本文涉及的产品
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
简介:

本文讲的是大数据来袭 传统IT厂商紧握Hadoop机遇,大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。

  在中国,社交网络同样如火如荼。新浪副总裁王高飞就曾表示,新浪微博的注册用户已超过3亿,用户平均每天发布超过1亿条微博内容,相当于每10个中国人里面,就会有一人每天发布一条微博。每位用户的平均在线时长为60分钟,活跃用户中有60%通过移动终端登录,所有来自移动终端的原创内容中,有40%的微博分享照片。在社交网络的影响下,用户通过移动设备能够在任何时间、任何地点、任何状态下消费和创造数据。

  社交网络和移动互联网的发展催生出大量的非结构化数据,这是一种有别于传统结构化的一种数据类型,常见的图像、视频、音乐、办公文档、Web页面、微博、即时通信和传感器产生的数据等都属于非结构化数据。据英特尔亚太研发有限公司总经理、软件与服务事业部中国区总经理何京翔博士介绍,当前每48小时产生的数据量相当于人类文明到2003年产生的数据量总和,未来随着物联网和智能城市的发展,这一数字将更加惊人,且多为传感器等数据采集装置所产生的非结构化数据。

  除此之外,传统企业同样面临大数据的挑战。据Gartner预测,企业数据将在五年内增加800%,其中80%是非结构化的。来自团体、社区,以及社交网络的非业务数据会成为这种趋势中的大部分。非结构化数据的爆炸式增长,使传统数据库面临巨大挑战,Hadoop逐渐成为全球IT产业的宠儿。

  Hadoop是一个100%的分布式文件系统,被称为继Linux以来最成功的开源软件,其最大的优势就是存储和计算非结构化数据。Hadoop可以利用高性价比的X86服务器组成高性能集群,当数据量增加到无法负荷的时候,只需增加相应节点即可满足计算需求,价格低廉的存储和计算是大数据的推动力。

  传统数据库的Hadoop梦想

  与Hadoop不同,数据库自诞生之日起,就承载了企业中结构化数据的日常管理。数据库的发展经历了人工管理、文件系统和数据库系统三个阶段,在市场趋势的影响下,数据库朝着新的方向不断变革。据IDC统计,2011年全球数据总量已经达到了1.8ZB,2020年将达到35ZB,这意味着全球数据将进入大爆炸的时代。传统数据库厂商纷纷推出各自的大数据解决方案,这些解决方案有一个共同的关键词——Hadoop。

  Hadoop分布式系统基础架构,主要由HDFS、MapReduce和HBase组成,是一个能够便捷的开发和运行处理大数据的软件平台。Hadoop不等于数据库,它们之间最大的区别就在于,数据库擅长处理结构化数据,而Hadoop擅长处理非结构化数据,数据类型多样化则是大数据的特征之一。Hadoop对数据库厂商而言,既是威胁,也是机遇,如果能够让Hadoop为数据库所用,将为数据库打造一片新的天空。下面笔者将对支持Hadoop的数据库进行盘点,并对其大数据策略简要分析。

  ·Oracle:甲骨文公司在数据库领域一直处于领先地位,其旗下的Oracle数据库是一款最受欢迎的关系型数据库产品。甲骨文公司全球副总裁、大中华区技术总经理喻思成曾表示,甲骨文公司更专注的是结构化的工具和RDBMS平台,但在过去的一年中,甲骨文公司也开始走进大数据时代。事实也的确如此,甲骨文公司意识到Hadoop在大数据处理方面的潜力,推出以Hadoop为基础的大数据机(Big Data Application),其中包括开源Apache Hadoop、Oracle NoSQL数据库、Oracle数据集成Hadoop应用适配器、Oracle Hadoop装载器以及开源R,并与Cloudera公司合作提供Apache Hadoop系列软件。

  ·IBM DB2:IBM是关系型数据库的创造者,对数据库的诞生和发展举足轻重,然而处在大数据的新时期,老牌关系型数据库也需要不断创新、迎接挑战。IBM中国研究院院士、首席技术官王云曾在2012中国数据库技术大会上表示,大数据不能用传统方法处理,传统关系型数据库起源于OLTP功能,能够保证数据准确记录;而大数据是新的应用,是OLAP的体现,这也是关系型数据库不能满足大数据的原因。IBM推出的大数据平台包括Hadoop和Stream Computing两个组件,通过新的路径解决大数据分析处理。

  ·SQL Server:微软作为全球知名的软件公司,在数据库领域的地位不容小觑。微软SQL Server 2012引入Hadoop,帮助客户无缝存储和处理所有类型的数据,包括结构化、非结构化和实时数据。除此之外,微软还将同时在Windows Azure平台和Windows Server上提供 Hadoop,形成完整的大数据解决方案。正如微软亚太研发集团首席技术官孙博凯所说,微软与Hadoop是一个强强组合,能够把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起。

  ·SAP:SAP公司是全球知名的企业管理软件供应商,自2010年SAP收购Sybase以来,开始成为数据库界一颗冉冉升起的新星。SAP将数据库技术作为2012年重点发展领域之一,形成了以SAP HANA为核心,以SAP Sybase数据库为基础的大数据战略。在这一战略中,特别重要的一环就是Hadoop。通过SAP HANA和SAP Sybase IQ与Hadoop的集成,增强对Hadoop等大数据源的获取能力,并提供深度集成的预处理基础架构。

  ·EMC Greenplum:EMC是全球知名信息存储服务提供商,与SAP相似,在2010年收购了Greenplum,开始发展其数据库市场。目前Greenplum的数据库产品包括传统的Greenplum Database和Greenplum HD(Hadoop),前者用来应对企业结构化数据,后者可以将非结构化数据导入Greenplum中进行存储和分析。EMC在中国的市场战略,以“大数据推动业务转型”为核心,EMC数据计算产品部大中华区总经理刘伟光曾对笔者表示,EMC之所以会推出Greenplum Hadoop版本,是对Hadoop的未来发展前景充满信心。

  除了以上提到的五款主流数据库,仍有越来越多的传统数据库厂商正在加入Hadoop阵营,这其中还包括Teradata、Informatica、Pentaho、Talend等数据库、数据仓库及商业智能服务提供商。此外,Hadoop还是NoSQL数据库的主要架构之一。


  Hadoop从应用到系统架构

  从应用层面来看,不管是数据库还是商业智能厂商对Hadoop都相当重视。与此同时,传统硬件厂商也将Hadoop作为大数据战略至关重要的一环。近期,全球知名的半导体芯片制造商英特尔公司推出优化后的Hadoop发行版,希望通过英特尔的市场先机和技术优势,将Hadoop推广至全球市场,以应对大数据的挑战。

  英特尔的专长是做硬件,SAP、甲骨文等主流应用厂商的大数据产品都采用英特尔的至强处理器。但英特尔在软件行业也颇有建树,英特尔每年都有大量的开源技术专家参与开发开源项目,仅中国的上海研究院,做开源研究的就有200多人。比较知名的开源项目包括TIZEN项目和Yocto项目,其中TIZEN项目是以MeeGo为基础的开源项目;Yocto项目,以Linux为基础,但它不是Linux的分销,而是提供一个自定义项目。

  在这些开源项目中,英特尔的Hadoop发行版也是其中的代表。这是一套完整的解决方案,针对不同行业客户进行系统整合,根据不同用户的需求实现个性化解决方案。Hadoop China发起人查礼博士曾表示,开源Hadoop技术难度大,需要专业技术人员提供支持,且技术门槛高,一般企业没有技术实力使用开源版的Hadoop。

  英特尔Hadoop发行版的出现,从硬件和软件层面分别对Hadoop进行优化,为企业大数据处理提高了稳定性和易用性。中国联通研究院就针对互联网用户的上网记录查询系统部署了英特尔Hadoop发行版, 黄文良院长表示,该查询系统设计之初也曾尝试使用Hadoop的开源版本,但与英特尔Hadoop发行版的性能相比,认为无论在监控能力还是稳定性上都有很大区别。

Hadoop从应用到系统架构

  此外,英特尔在CPU、存储、内存等技术上不断创新,为Hadoop的发展提供硬件支持。英特尔基于Hadoop开源框架针对英特尔平台进行了一系列优化工作,使得在英特尔平台上实现Hadoop的处理能力达到“接近于实时”的处理效果。并通过和中国电信、智能城市、医疗等行业领域的合作,英特尔Hadoop发行版还针对中国市场的行业和应用特点做了更进一步的优化。

  英特尔这种软硬结合的策略能够比较彻底的解决大数据难题。英特尔作为硬件行业的领袖,已经率先发力大数据,相信未来会有更多的硬件厂商拥抱Hadoop,布局大数据市场。

  小结

  不管是从应用层面还是系统架构层面均可以看出,Hadoop对大数据的影响巨大。就像IDC预测的那样,在未来两三年当中,Hadoop会有一个很明显的商业化的过程,Hadoop商业化的打包产品会不断地向市场推出。Hadoop将同Linux一样,迎来发展的高潮期。对于传统IT厂商而言,这是利用Hadoop,真正实现大数据的商业价值的一个机遇。

作者: 王玉圆 

来源: IT168

原文标题:大数据来袭 传统IT厂商紧握Hadoop机遇

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
12天前
|
存储 分布式计算 Hadoop
大数据处理架构Hadoop
【4月更文挑战第10天】Hadoop是开源的分布式计算框架,核心包括MapReduce和HDFS,用于海量数据的存储和计算。具备高可靠性、高扩展性、高效率和低成本优势,但存在低延迟访问、小文件存储和多用户写入等问题。运行模式有单机、伪分布式和分布式。NameNode管理文件系统,DataNode存储数据并处理请求。Hadoop为大数据处理提供高效可靠的解决方案。
36 2
|
12天前
|
分布式计算 Hadoop 大数据
大数据技术与Python:结合Spark和Hadoop进行分布式计算
【4月更文挑战第12天】本文介绍了大数据技术及其4V特性,阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce,Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop,可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop,以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。
|
14天前
|
SQL 分布式计算 Hadoop
利用Hive与Hadoop构建大数据仓库:从零到一
【4月更文挑战第7天】本文介绍了如何使用Apache Hive与Hadoop构建大数据仓库。Hadoop的HDFS和YARN提供分布式存储和资源管理,而Hive作为基于Hadoop的数据仓库系统,通过HiveQL简化大数据查询。构建过程包括设置Hadoop集群、安装配置Hive、数据导入与管理、查询分析以及ETL与调度。大数据仓库的应用场景包括海量数据存储、离线分析、数据服务化和数据湖构建,为企业决策和创新提供支持。
54 1
|
1月前
|
消息中间件 SQL 分布式计算
大数据Hadoop生态圈体系视频课程
熟悉大数据概念,明确大数据职位都有哪些;熟悉Hadoop生态系统都有哪些组件;学习Hadoop生态环境架构,了解分布式集群优势;动手操作Hbase的例子,成功部署伪分布式集群;动手Hadoop安装和配置部署;动手实操Hive例子实现;动手实现GPS项目的操作;动手实现Kafka消息队列例子等
20 1
大数据Hadoop生态圈体系视频课程
|
4月前
|
分布式计算 资源调度 搜索推荐
《PySpark大数据分析实战》-02.了解Hadoop
大家好!今天为大家分享的是《PySpark大数据分析实战》第1章第2节的内容:了解Hadoop。
48 0
《PySpark大数据分析实战》-02.了解Hadoop
|
4月前
|
存储 搜索推荐 算法
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
【大数据毕设】基于Hadoop的音乐推荐系统的设计和实现(六)
168 0
|
4月前
|
分布式计算 Hadoop Java
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)
53 1
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0