Hadoop掀起大数据革命三巨头齐发力-阿里云开发者社区

Hadoop掀起大数据革命三巨头齐发力

2017-09-01 1658

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本文讲的是 Hadoop掀起大数据革命三巨头齐发力, 开源的数据处理平台凭借其低成本、高扩展性和灵活性的优势已经赢得了多数网络巨头的认可。现在Hadoop将进入更多企业。IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。上个月Oracle和Microsoft也分别透露了将计划在明年发布基于Hadoop的产品。两家公司都计划提供协助部署服务和企业级支持。Oracle已经承诺将会在大数据设备中预装Hadoop软件。

　　大数据革命正以Apache Hadoop为中心如火如荼的进行着。自从开源分布式数据处理平台在5年前发布时讨论之声就不绝于耳。但在过去的18个月中，Hadoop赢得了客户的认可，并得到众多商业化的支持以及众多数据库和数据集成软件商的整合。在众多厂商之中最著名的三个商业数据供应商当属Oracle、IBM和Microsoft。

　　Hadoop会在未来成为大数据的重大技术吗?

　　Hadoop是一个基于Java的分布式密集数据处理和数据分析的软件框架。Hadoop在很大程度上是受Google在2004年白皮书中阐述的MapReduce的技术启发。MapReduce工作原理是将任务分解为成百上千块的小任务，然后发送到计算机集群中。每台计算机再传送会自己那部分信息，MapReduce则迅速整合这些反馈并形成答案。

　　Hadoop的扩展性非常优秀，Hadoop可处理分布在数以千计的低成本X86服务器计算节点中的大型数据。同时由于众所周知的摩尔定律，内存和磁盘的容量也在不断增长。Hadoop对硬件的支持也在加强，现在每个节点可部署16核的处理器，12TB甚至24TB磁盘。Cloudera透露其推出的产品每个节点的成本大约4000美元。这个价格对于关系数据库部署每TB 10000至12000美元来说极具竞争优势。

　　这种高容量低成本的组合引人注目，但Hadoop最吸引人的是其处理混合数据类型的能力。

　　Hadoop可以管理结构化数据，以及诸如服务器日志文件和Web点击流的数据。同时还可以管理以非结构化文本为中心的数据，如Facebook和Twitter。这种处理多类型数据的能力非常重要。它催生了NoSQL平台和产品。如Cassandra, CouchDB, MongoDB以及Oracle最新的NoSQL数据库。而传统关系型数据库如Oracle，IBM DB2，Microsoft SQL Server和MySQL则都不能处理混合数据类型和非结构化数据。由于事务处理灵活性的需求，Hadoop获得大多数数据分析厂商的关注和支持。

　　Hadoop已被广泛应用

　　现今，Hadoop已被认为是非结构化数据的专用技术。低成本、高扩展性和灵活性等优势已成为处理大规模点击流量分析和广告定位等网络巨头(如AOL和comScore)的首选。

　　AOL三年多时间一直使用Hadoop。AOL的研发团队在加利福尼亚州的Mountain View部署了300节点的系统，该系统可以存储每天数十亿事件和超过500TB的点击流数据。点击所带来流数据是高度结构化的，但数据量是非常庞大和多样的。所以几乎不可能处理所有的提取、转换和负载工作。AOL为了解决以上问题决定使用Hadoop MapReduce处理分布在数百个计算节点的数据过滤和关联任务。由于Hadoop为业务带来的优势，AOL的Hadoop研发团队在今年四月在其总部部署了700节点的系统。

　　Hadoop适用于所有类型数据的特性注定将使Hadoop在更广泛的领域使用。例如提供托管服务和中小型企业应用服务提供商SunGrad。他们将计划推出基于云的托管服务，旨在帮助金融服务公司处理他们基于Hadoop MapReduce的数据处理。

　　商用软件厂商Tidemark最近也推出一款SaaS软件，这种基于云的性能管理应用使用MapReduce将混合数据源转化为产品或金融规划方案。

　　三巨头大数据领域齐发力

　　在上月美国拉斯维加斯举行IOD年度大会上IBM院士、DB2总架构师Curt Cotner宣布IBM将在明年推出内置NoSQL技术的DB2旗舰级数据库管理系统。他还表示未来的数据库发展方向是非关系数据库NoSQL。目前Google的BigTable和Amazon的Dynamo都用NoSQL型数据库，而传统的关系数据库在应付超大规模、高并发的SNS、web2.0网站已经力不从心。同时IBM发布了一系列数据分析软件，包括云计算版本的InfoSphere BigInsights。BigInsights是一套建立在Hadoop上的数据分析软件，能够处理企业用户收集大量非结构化资料。

　　微软也在10月12日在西雅图举行的SQL PASS 2011峰会宣布将与从雅虎分拆出来的Hortonworks合作开发Hadoop，并将在Apache Hadoop上实现搭建Windows Azure以及Windows Server平台。同时基于Hadoop的Windows Server还会与微软现有的BI工具联合处理任务。

　　Oracle作为全球最大的关系型数据库提供商也有所行动。其在2011 Oracle全球大会上推出了Big Data Appliance。Big Data Appliance是一个集成了Hadoop、NoSQL Database、Oracle数据库Hadoop适配器、Oracle数据库Hadoop装载器及R语言的系统。

　　Hadoop的未来

　　根据目前的状况来看，Hadoop作为企业级数据仓库体系结构核心技术，在未来的数年中将会保持持续增长的势头。包括MapR、Zettaset、Cloudera、HStreaming、Hadapt、DataStax、Datameer这些与Hadoop相关的新公司已经获得投资，为人们所熟知，为各种市场带来最新技术。

　　与此同时下一代的MapReduce会完善很多之前不尽人如意的地方。首先节点数将从目前的4000增加到6000-10000，其次并发的任务数从目前的40000增加到100000。另外将继续加大对硬件支持，同时架构也会有所改变，包括更多编程模式的支持。

作者：王玉圆

来源： IT168

原文标题：Hadoop掀起大数据革命三巨头齐发力

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

Hadoop掀起大数据革命三巨头齐发力

热门文章

最新文章

相关课程

相关电子书

相关实验场景

Hadoop掀起大数据革命 三巨头齐发力

热门文章

最新文章

相关课程

相关电子书

相关实验场景

Hadoop掀起大数据革命三巨头齐发力