怎么搞个大数据平台？-阿里云开发者社区

怎么搞个大数据平台？

2017-07-05 1433

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

从“存储系统”、“处理系统”和“分析方法”来看大数据平台

Intetix Foundation（英明泰思基金会）由从事数据科学、非营利组织和公共政策研究的中国学者发起成立，致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家，以及分布在全球的志愿者，我们创造性地践行着我们的使命：为美好生活洞见数据价值。

原文链接：https://dzone.com/articles/commercial-and-open-source-big

解决问题时需要哪些技能呢？

直觉和数据分析能力。

当你去处理还没发生的事件，即便是很大数据量的分析，也需要一定程度的直觉。但很明显基于数据分析的决策比直觉意见更可信，因为它排除了决策人的偏好、品味和经验，客观对待问题。

毫无疑问数据很重要，但不断增长的数据使得数据处理越来越难。我们需要的不仅仅是数据，还有技术。大数据科技存储了大量的数据，搜索出有意义的可视化数据，通过预测数据为应用程序进行内部业务处理。为让大家更为清楚地了解大数据平台技术，本文把不同的平台技术分类成三方面：“存储系统”、“处理系统”和“分析方法”，并且描述相关的产品和技术。

存储系统方面

Parallel DBMS

NoSQL

这两个系统都用外扩方法存储大数据。

Parallel DBMS

目前的RDBMS技术适用于所有单系统邻域，专业的架构类系统让处理OLAP，文本，串流，和高纬度数据变得更出色。同时随着环境的变化，RDBMS对此也在OLTP处理领域做出了相应的改变。

NoSQL

NoSQL，是一个新存储系统的总括，为了简化碎片简易定义的数据模型而出现。它是分布的基础，并使得在一个分布复制环境或者约束隔离下的要求没那么严格。

VoltDB

VoltDB系统是由适合高性能的OLTP环境的格式组成，通过水平分割表数据建立高速率的OLTP系统。

图1展示了要求仅在一个分区内操作的某个任务连续地在相应的分区内被执行，并且需要在多个分区处理的某一任务被协调者处理。如果有很多操作需要在几个分区处理，行和大小不宜过大。

SAP HANA

SAP HANA是SAP公司的一个基于记忆的存储系统。它的特点是组织一个系统最佳化的分析任务，比如OLAP。如果所有数据在系统内存内，那么重中之重是突破内存和CPU缓存之间的瓶颈。为了最小化缓存缺失，处理带有时间的连续数据是更有利的，这意味着分析许多OLAP时列结构表可能更有利。

面向列的表有很多优势，典型实例是一个高数据压缩率和处理速度。如果一个相同的数据域，与完全整合在一起的数据块相比，几个数据域对数据压缩更好。下面的图展示了行结构和列结构方法的简明对比。

　　Vertica

Vertica是OLAP专业的数据库，它通过列方法在磁盘上存储数据。不共享方式的MPP结构包含一个最佳化写入的存储，写入更快，在压缩的形式下读入存储，并且管理双侧数据流元组移动。下面的图3帮助理解Vertica结构：

　　Greenplum

Greenplum是一个非共享MPP结构的数据库，基于PostgreSQL产生。保存的数据可以选择行或列方式。数据存储在服务器段，并且由日志传输的方式测试段单位复制使得其可用。

1.一个由SMP结构主机运行的查询执行计划和聚集的结构，而由MPP结构在S-BLADE节点处理查询来执行。

2.每个S-BLADE是通过一种被称作FPGA特殊的数据处理器（现场可编程门阵列）和磁盘连接而成。

3.每个S-BLADE和主机使用IP地址连接到网络。

与其他系统不同，FPGA对数据进行压缩过滤、记录或柱；在事务处理方面，它具有过滤或转换功能。在处理大数据的时候，它遵循的是在执行位于数据操作的数据时尽可能减少不必要数据的原则。

　　处理方面

并行处理的关键点是各个击破，即数据被分割在独立的类型，之后并行地处理它。就像矩阵乘法，它可以分割和运行每个运算。大数据处理的意思是把一个问题分割成几个小操作，并且将他们整合成一个单一的结果。但如果有操作依赖，那么不可能最好地使用并行操作，在保存和处理数据时很有必要考虑这些因素。

多核处理

被广泛熟知的处理大数据的技术是一个分布式数据多核处理的过程框架，比如Apache Hadoop.

通过多核处理方法的数据有以下特征：

通过使用内置硬盘，而非特殊存储方式。

当很多电脑参与处理，一般情况下假设会有系统错误和硬件错误，而非例外。

通过简化抽象的Maps和Reduce的基本操作，你可以解决很多复杂的问题。即使是不熟悉平行程序的程序员也能轻松执行数据的并行处理。

通过使用大量计算机来实现高流通量。

下图展示了map-reduce方法的实现流程。存储在HDFS的数据被分给一个可行的工作者和一个表达值类型，并将结果存放在本来磁盘。数据服从减少过程，并生成一个结果文件。

　　Dryad

Dryad是一个图形框架，它能通过形成程序之间的数据通道加工并行数据。开发者用Map或者reduce 框架的就可以直接写Map和Reduce函数，而如果用Dryad,他们需要做图来处理相应的数据。如下图7描述了数据处理在Dryad和UNIX’s 通道的比较。

Dryad使DAG类型的数据流成为可能。尽管并行数据运算框架为处理大数据提供了足够的函数，但没有经验的开发者或数据分析员以及未成年人在用系统进入的时候仍会遇到障碍。因此，我们需要一种方法通过更高的标准抽象概念来帮助数据处理更简便。

Apache Pig

Apache Pig 提供一个更高标准的数据过程结构，允许通过结合处理大数据。它支持Pig Latin语言，有如下特征：

1.提供高标准结构，比如一个关系，包，和元组，包括int, long,和两个基本类型。

2.提供关系运算，比如FILTER, FOREACH, GROUP, JOIN, LOAD 和STORE。

3.你也可以指定自定义用户功能。

一个通过Pig Latin指明的数据处理程序，转换成逻辑执行计划，接着再转换成Map-Reduce 执行计划。下图显示Pig运算过程。

Apache Pig 是一个访问方式，使大数据处理程序在编程语言中成为可能，叫C或者Java。另外一个类似的访问方式是Google’s Sawzall.

一些技术帮助说明了数据处理，比如SQL，在编程语言中没有说明数据处理过程。典型的例子比如Apache Hive， Google Tenzing和微软的SCOPE.

Apache Hive

为了支持来自用户的扩张，它允许用户用标量值，集合体以及表格水平阐明功能。

分析方面

GNU R

GNU R 是软件环境，包含了专供统计分析和制图以及程序包的程序语言。它确保了一个平滑的矢量和矩阵数据过程从而优化语言上的统计核算。

在过去，R是使用单一CPU将数据放入电脑记忆中进行分析，但由于增加的数据要处理，它已经有了很多的发展。有些典型的例子如下：

利用多核的DoSMP 程序包；

Bigmemory package: 存储数据的共享存储器。它只存储关键的内存值并将其存在磁盘中；

雪包：它使R程序在计算机簇环境中执行成为可能。

如下图示范雪包如何在簇环境中处理数据的，这是一个典型的分类和攻克方法。

Map-Reduce运算已经越来越普通，我们可以看到技术，比如RHIPE, RHadoop包和Ricardo, 那里MR运算和R都是集合形式。还有rhive 包，它结合了如Apache Hive这样高标准数据处理技术。

Apache Mahout 应用于扩大数据分析运算。不仅Apache Hadoop,它也可以在多样环境中执行。它也通过存储数学库和Java 手机的方式提供有效包，比如向量矩阵或者其他NoSQL数据库作为数据资源的功能。

以上我们通过对大数据的存储、处理以及分析三个方面来了解大数据平台技术，我们希望大数据最终在处理技术上发挥自身作用，而将数据和技术要素结合起来则可以获得显著的结果。

本文转自d1net（转载）

怎么搞个大数据平台？

热门文章

最新文章

相关课程

相关电子书

相关实验场景