你必须知道的9大Hadoop公司-阿里云开发者社区

如果你有大量的数据，那么Hadoop已然,或者即将应当进入你的视野。

当下最时髦且富有盛名的大数据管理系统原来只用在像谷歌、雅虎这样的互联网大咖，现在已经逐渐渗透到众多企业中。原因主要有以下两点：1）企业也在产生越来越多需要管理的数据，而Hadoop是一个非常棒的平台，特别是它能够合并遗留的旧数据，新数据和非结构化的数据。2）很多的围绕Hadoop提供支持和服务的供应商出现，促使Hadoop更适用于企业；

“Hadoop作为一个开源平台自由成长，深入到企业数据管理架构中势不可挡”，Forrester的分析师MikeGualtieri和Noel Yuhanna在其针对Hadoop市场波动报告中写到。“相信Hadoop会是一个大型企业必备的数据平台，它是未来灵活的数据管理平台的基石。如果你有大量的结构化、非结构化,甚至是二进制数据，那么你的企业就和Hadoop有完美的契合点”。

那么我们该从哪里开始？Forrester会告诉你，有许多地方可以帮助你开始应用Hadoop，他们已经对9个提供Hadoop的公司进行评估，找到每一家公司的优劣势。Forrester总结在这方面没有特别清晰的市场领军，一些相对年轻的公司会追随科技巨头的脚步，为用户提供有竞争力的服务。

首先，关于Hadoop的背景介绍：Hadoop是一个开源的Apache项目，每个人都可以自由下载核心代码，包括Hadoop Common，Hadoop分布式文件系统，Hadoop YARN, 和 HadoopMapReduce。很多公司，从IBM到亚马逊、微软、Terada，都将Hadoop打包成更加易于使用的分布式系统或者服务中。每家公司都会有一些不同的战略，但是关键的区别是Hadoop有能力在可能几千台服务器中分配工作负载，使大数据成为可管理的数据。

备注：以下公司列表基于Forrester的市场波动报告，并未囊括所有的Hadoop和大数据管理平台。列表顺序按公司首字母排列。

亚马逊网页服务（Amazon Web Service，“AMS”）

如果客户想要寻找在公有云上提供的Hadoop平台，那你马上就会发现Forrester称之为“云中之王”的这家公司—亚马逊网页服务(AWS)。这家公司的Hadoop产品叫做“Elastic Map Reduce (EMR)”,AWS称，EMR就是他们使用Hadoop提供的大数据服务，当然他不是一个纯粹的开源Hadoop,它是为跑在AWS的云上特别定制的。

Forrester提到的EMR是市场上应用最广的Hadoop平台，EMR已经拥有多家合作伙伴并为其提供平台以外的额外服务，例如对数据进行查询、建模、集成和管理。根据Forrester的报告称，AWS正在经行更大的创新，从它的发展路线图可以看到，EMR将具备更强的能力，例如它可以自动扩展，根据工作负载情况调整大小。此外AWS还计划连同其他产品和服务，包括RedShift数据仓库，及最新发布的Kenesis实时处理引擎，为EMR提供更强大的支持，并且已经有计划提供NoSQL数据库和商业智能工具的支持。AWS所没有的是用户本地部署的Hadoop分布式系统，这恰恰是后面这两家公司的专长。

Cloudera

Cloudera拥有开源分布式的Hadoop，使用的Apache项目中的很多方面，但同时也在其基础之上做了很大的改进。Cloudera已经为它的产品开发了很多功能，从名为“Cloudera manager”的管理和监控工具，到名为“Impala”的运行在Hadoop上的SQL引擎。Cloudera使用开源Hadoop作为其分布式系统的基础，但它不是一个纯开源的产品。当Cloudera的用户需要一些开源Hadoop所没有的功能，他们就会开发或者找有相应的功能的合作伙伴。“Cloudera创新的手法在忠于Hadoop核心的同时尽力满足客户需求，这是他们有别于其他数据服务供应商的特点。”Forrester称。有超过200个付费用户稳定的运行在Cloudera平台上，有一些用户在其平台上管理1000多个节点超过1PB的数据。

Hortonworks

和Cloudera一样，Hortonworks也是一家只做Hadoop的公司。不同于Cloudera的是，Hortonworks比其他任何一家供应商对于开源Hadoop的粘性更高。Hortonworks的目标是构建Hadoop的生态系统和用户群，同时改善开源代码。它的平台紧紧绑定开源代码，公司官方称这对用户来说非常有益，因为其用户不必完全绑定在数据服务商身上。意思是说，如果Hortonworks的用户确实需要离开他们的平台，那他们可以轻松的把应用程序从Hortonworks平台迁移走。当然，这也不是说他们在开源平台上没有创新。公司把他们有对于平台的开发工作全部给到开源社区，以Ambri为例，它就是Hortonworks开发的用于进行集群管理的工具。Hortonworks的这一举措使它和很多的供应商像Teradata、微软、红帽和SAP建立了非常强的合作伙伴关系。

IBM

当企业考虑大的IT项目时，大都会想到IBM。正因为如此，IBM成为Hadoop项目服务在全球最大的供应商。 Forrester称IBM已经有超过100个Hadoop部署用户，且很多用户都是PB级别的数据。公司将其在网格计算、全球数据中心和企业级部署的丰富经验应用到大数据项目。“IBM的路线图看得出他们正在将IBM已有的产品和BigInsights Hadoop解决方案进行集成，这些已有产品包括SPSS的高级分析工具，用于高性能计算的负载管理，商业智能工具和数据挖掘工具等，”Forrester提到。

Intel

和AWS一样，英特尔也利用并优化了Hadoop版本，使其能够更好的运行在英特尔的硬件上，特别是志强芯片。对于那些一直努力突破Hadoop系统的限制，希望在软件和硬件之间找到最佳平衡点的用户来说，英特尔的Hadoop分布式系统应该最为适用。Forrester提到英特尔最近刚发布这个产品，并已投放市场了，所以很期待他们能够在现有版本基础上有所创新。在所有其他7家“领导者”地位的公司行列中，英特尔和微软在Hadoop市场更能被称为“表现强劲”。

MapR Technologies

MapR Technologies可能是最好的Hadoop分布式系统公司，但很多人都没有听说过这家公司。在Forrester用以编写波动报告而调查的Hadoop用户反馈中，MapR以其在分布式架构和数据处理能力方面获得用户评分最高。这家公司的秘诀是他们拥有一套已经做到了现有的Hadoop版本中的特有功能。例如，MapR的分布式支持NFS，此外，MapR还在它的分布式系统中构建了灾难恢复和高可用的特性。Forrester称在Hadoop市场，MapR只不过没有像Cloudera和Hortonworks那样的品牌认知度，但是随着更多合作伙伴的加入和市场营销的增强，MapR已经逐渐成为主流的Hadoop公司。

Microsoft

微软历来不是一家会拥抱开源软件的公司，但是在这件事情上，他们不但让Hadoop跑在了Windows的机器上，而且还把代码提供给开源项目，以促进Hadoop的生态系统更广泛的发展。这个工作的成果已经体现在微软公有云Azure上的Hadoop产品中。他是一个基于Hortonworks的分布式平台，在Azure上定制的“Hadoop即服务”的产品。

微软还有一些其他的项目，包括“Polybase”，能够实现通过熟悉的SQL语句查询Hadoop的数据的能力。据Forrester的报道，“微软通过在数据库、数据仓库、云计算、OLAP、商业智能、工作表、协同和开发工具方面的优势，不断为微软用户增加在Hadoop方面的能力”。如英特尔一样，微软也被认为是“表现强劲”，但还不是市场的领导者。

Pivotal Software

去年EMC和VMware双方出资从原有公司独立出来成立了Pivotal公司，Pivotal做的主要业务之一就是Hadoop分布式系统，此外还有云上的PaaS服务（Cloud Foundry PaaS）。Pivotal在开源代码之上增加了很多的工具，特别是一个SQL引擎，叫做“HAWQ”，和专为运行大数据平台而定制的Hadoop一体机。Forrester称Pivotal的Hadoop平台最大的优势就是它能够将其分布式系统和其他Pivotal，EMC和VMware的产品集成，然而，根据Forrester的报道，这家公司目前只有不到100个用户，而且大部分都是中型用户。

Teradata

像Teradata这样的公司抑或将Hadoop视为威胁或者视为机会，公司专注在数据管理，特别是SQL和关系型数据库方面。因此像Hadoop这样的NoSQL平台的崛起可能会对公司产生威胁。然而，Teradata还是拥抱了Hadoop。通过和Hortonworks合作，Teradata现在已经将Hadoop平台集成到现有SQL系统中，给现有的Terada用户一个即插即用的Hadoop平台，它能够和已经存在于Teradata数据仓库中的数据无缝集成。

原文发布时间为：2014-04-17

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号