常见的七种Hadoop和Spark项目案例-阿里云开发者社区

常见的七种Hadoop和Spark项目案例

2019-04-01 5726

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大数据中比较火爆的Hadoop、Spark和Storm，最常见的七种项目你们是否已经了解到位了呢，下面一起了解一下吧一、数据整合称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。

大数据中比较火爆的Hadoop、Spark和Storm，最常见的七种项目你们是否已经了解到位了呢，下面一起了解一下吧

一、数据整合

称之为“企业级数据中心”或“数据湖”，这个想法是你有不同的数据源，你想对它们进行数据分析。这类项目包括从所有来源获得数据源(实时或批处理)并且把它们存储在hadoop中。 “企业级数据中心”通常由HDFS文件系统和HIVE或IMPALA中的表组成

二、专业分析

许多数据整合项目实际上是从你特殊的需求和某一数据集系统的分析开始的。这些往往是令人难以置信的特定领域，如在银行领域的流动性风险/蒙特卡罗模拟分析。

在Hadoop和Spark的世界，看看这些系统大致相同的数据整合系统，但往往有更多的HBase，定制非SQL代码，和更少的数据来源(如果不是唯一的)。他们越来越多地以Spark为基础

三、Hadoop作为一种服务

在“专业分析”项目的任何大型组织(讽刺的是，一个或两个“数据整理”项目)他们会不可避免地开始感觉“快乐”(即，疼痛)管理几个不同配置的Hadoop集群，有时从不同的供应商。

四、流分析

很多人会把这个“流”，但流分析是不同的，从设备流。通常，流分析是一个组织在批处理中的实时版本。在某些情况下，这是一种新的类型的交易系统，分析数据位的位，因为你将它并联到一个分析系统中。这些系统证明自己如Spark或Storm与Hbase作为常用的数据存储。

五、复杂事件处理

虽然还没有足够快的超低延迟(皮秒或纳秒)的应用，如高端的交易系统，你可以期待毫秒响应时间。有时，你会看到这样的系统使用Spark和HBase——但他们一般落在他们的脸上，必须转换成Storm，这是基于由LMAX交易所开发的干扰模式。

六、ETL流

有时你想捕捉流数据并把它们存储起来。这些项目通常与1号或2号重合，但增加了各自的范围和特点。，这些几乎都是Kafka和Storm项目。Spark也使用，但没有理由，因为你不需要在内存分析。

七、更换或增加SAS

我喜欢简单而充实的旅途，火车或者旧的巴士，可以穿过拥挤的车站，可以在站台和人们一样拖着行李箱向前张望，可以用很长的时间去看窗外的景物，可以用整个晚上去听各地的乡音。

常见的七种Hadoop和Spark项目案例