怎么搞个大数据平台?

简介:

从“存储系统”、“处理系统”和“分析方法”来看大数据平台

20160126092324581.jpg

Intetix Foundation(英明泰思基金会)由从事数据科学、非营利组织和公共政策研究的中国学者发起成立,致力于通过数据科学改善人类社会和自然环境。通过联络、动员中美最顶尖的数据科学家和社会科学家,以及分布在全球的志愿者,我们创造性地践行着我们的使命:为美好生活洞见数据价值。

原文链接:https://dzone.com/articles/commercial-and-open-source-big

解决问题时需要哪些技能呢?

直觉和数据分析能力。

当你去处理还没发生的事件,即便是很大数据量的分析,也需要一定程度的直觉。但很明显基于数据分析的决策比直觉意见更可信,因为它排除了决策人的偏好、品味和经验,客观对待问题。

毫无疑问数据很重要,但不断增长的数据使得数据处理越来越难。我们需要的不仅仅是数据,还有技术。大数据科技存储了大量的数据,搜索出有意义的可视化数据,通过预测数据为应用程序进行内部业务处理。为让大家更为清楚地了解大数据平台技术,本文把不同的平台技术分类成三方面:“存储系统”、“处理系统”和“分析方法”,并且描述相关的产品和技术。

存储系统方面

Parallel DBMS

NoSQL

这两个系统都用外扩方法存储大数据。

Parallel DBMS

目前的RDBMS技术适用于所有单系统邻域,专业的架构类系统让处理OLAP,文本,串流,和高纬度数据变得更出色。同时随着环境的变化,RDBMS对此也在OLTP处理领域做出了相应的改变。

NoSQL

NoSQL,是一个新存储系统的总括,为了简化碎片简易定义的数据模型而出现。它是分布的基础,并使得在一个分布复制环境或者约束隔离下的要求没那么严格。

VoltDB

VoltDB系统是由适合高性能的OLTP环境的格式组成,通过水平分割表数据建立高速率的OLTP系统。

20160126092328857.png

图1展示了要求仅在一个分区内操作的某个任务连续地在相应的分区内被执行,并且需要在多个分区处理的某一任务被协调者处理。如果有很多操作需要在几个分区处理,行和大小不宜过大。

SAP HANA

SAP HANA是SAP公司的一个基于记忆的存储系统。它的特点是组织一个系统最佳化的分析任务,比如OLAP。如果所有数据在系统内存内,那么重中之重是突破内存和CPU缓存之间的瓶颈。为了最小化缓存缺失,处理带有时间的连续数据是更有利的,这意味着分析许多OLAP时列结构表可能更有利。

面向列的表有很多优势,典型实例是一个高数据压缩率和处理速度。如果一个相同的数据域,与完全整合在一起的数据块相比,几个数据域对数据压缩更好。下面的图展示了行结构和列结构方法的简明对比。

20160126092331368.png

  Vertica

Vertica是OLAP专业的数据库,它通过列方法在磁盘上存储数据。不共享方式的MPP结构包含一个最佳化写入的存储,写入更快,在压缩的形式下读入存储,并且管理双侧数据流元组移动。下面的图3帮助理解Vertica结构:

20160126092335996.png

  Greenplum

Greenplum是一个非共享MPP结构的数据库,基于PostgreSQL产生。保存的数据可以选择行或列方式。数据存储在服务器段,并且由日志传输的方式测试段单位复制使得其可用。

20160126092339491.png

1.一个由SMP结构主机运行的查询执行计划和聚集的结构,而由MPP结构在S-BLADE节点处理查询来执行。

2.每个S-BLADE是通过一种被称作FPGA特殊的数据处理器(现场可编程门阵列)和磁盘连接而成。

3.每个S-BLADE和主机使用IP地址连接到网络。

与其他系统不同,FPGA对数据进行压缩过滤、记录或柱;在事务处理方面,它具有过滤或转换功能。在处理大数据的时候,它遵循的是在执行位于数据操作的数据时尽可能减少不必要数据的原则。

20160126092342847.png

  处理方面

并行处理的关键点是各个击破,即数据被分割在独立的类型,之后并行地处理它。就像矩阵乘法,它可以分割和运行每个运算。大数据处理的意思是把一个问题分割成几个小操作,并且将他们整合成一个单一的结果。但如果有操作依赖,那么不可能最好地使用并行操作,在保存和处理数据时很有必要考虑这些因素。

多核处理

被广泛熟知的处理大数据的技术是一个分布式数据多核处理的过程框架,比如Apache Hadoop.

通过多核处理方法的数据有以下特征:

通过使用内置硬盘,而非特殊存储方式。

当很多电脑参与处理,一般情况下假设会有系统错误和硬件错误,而非例外。

通过简化抽象的Maps和Reduce的基本操作,你可以解决很多复杂的问题。即使是不熟悉平行程序的程序员也能轻松执行数据的并行处理。

通过使用大量计算机来实现高流通量。

下图展示了map-reduce方法的实现流程。存储在HDFS的数据被分给一个可行的工作者和一个表达值类型,并将结果存放在本来磁盘。数据服从减少过程,并生成一个结果文件。

20160126092346868.png

  Dryad

Dryad是一个图形框架,它能通过形成程序之间的数据通道加工并行数据。开发者用Map或者reduce 框架的就可以直接写Map和Reduce函数,而如果用Dryad,他们需要做图来处理相应的数据。如下图7描述了数据处理在Dryad和UNIX’s 通道的比较。

20160126092352403.png

Dryad使DAG类型的数据流成为可能。尽管并行数据运算框架为处理大数据提供了足够的函数,但没有经验的开发者或数据分析员以及未成年人在用系统进入的时候仍会遇到障碍。因此,我们需要一种方法通过更高的标准抽象概念来帮助数据处理更简便。

Apache Pig

Apache Pig 提供一个更高标准的数据过程结构,允许通过结合处理大数据。它支持Pig Latin语言,有如下特征:

1.提供高标准结构,比如一个关系,包,和元组,包括int, long,和两个基本类型。

2.提供关系运算,比如FILTER, FOREACH, GROUP, JOIN, LOAD 和STORE。

3.你也可以指定自定义用户功能。

一个通过Pig Latin指明的数据处理程序,转换成逻辑执行计划,接着再转换成Map-Reduce 执行计划。下图显示Pig运算过程。

20160126092357608.png

Apache Pig 是一个访问方式,使大数据处理程序在编程语言中成为可能,叫C或者Java。另外一个类似的访问方式是Google’s Sawzall.

一些技术帮助说明了数据处理,比如SQL,在编程语言中没有说明数据处理过程。典型的例子比如Apache Hive, Google Tenzing和微软的SCOPE.

Apache Hive

20160126092401108.png

为了支持来自用户的扩张,它允许用户用标量值,集合体以及表格水平阐明功能。

分析方面

GNU R

GNU R 是软件环境,包含了专供统计分析和制图以及程序包的程序语言。它确保了一个平滑的矢量和矩阵数据过程从而优化语言上的统计核算。

在过去,R是使用单一CPU将数据放入电脑记忆中进行分析,但由于增加的数据要处理,它已经有了很多的发展。有些典型的例子如下:

利用多核的DoSMP 程序包;

Bigmemory package: 存储数据的共享存储器。它只存储关键的内存值并将其存在磁盘中;

雪包:它使R程序在计算机簇环境中执行成为可能。

如下图示范雪包如何在簇环境中处理数据的,这是一个典型的分类和攻克方法。

20160126092405566.png

Map-Reduce运算已经越来越普通,我们可以看到技术,比如RHIPE, RHadoop包和Ricardo, 那里MR运算和R都是集合形式。还有rhive 包,它结合了如Apache Hive这样高标准数据处理技术。

Apache Mahout 应用于扩大数据分析运算。不仅Apache Hadoop,它也可以在多样环境中执行。它也通过存储数学库和Java 手机的方式提供有效包,比如向量矩阵或者其他NoSQL数据库作为数据资源的功能。

以上我们通过对大数据的存储、处理以及分析三个方面来了解大数据平台技术,我们希望大数据最终在处理技术上发挥自身作用,而将数据和技术要素结合起来则可以获得显著的结果。


本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
自然语言处理 前端开发 测试技术
我在阿里做开发的高效打工技巧总结
如何高效打工?本文作者站在开发的视角总结了一些打工技巧,包括如何高效开会、如何与人沟通、如何做PM等,希望可以给大家提供一些帮助。
365 1
|
7月前
|
存储 监控 物联网
从实时数据库转战时序数据库,他陪伴 TDengine 从 1.0 走到 3.0
他与 TDengine 的六年故事,始于一个“无奈之举”。
232 1
|
7月前
|
消息中间件 架构师 算法
好家伙!全网开源对标P5~P7程序员技术成长路线,阿里这次是真卷
今年的程序员可以说是最焦虑的一个群体了,面试找工作投简历没人理,有面试机会也面试不过,面试进去还干不长...于是,程序员们纷纷直呼:互联网寒冬又双叒叕来了,环境不好努力也没用躺平算了。
166 1
好家伙!全网开源对标P5~P7程序员技术成长路线,阿里这次是真卷
|
11月前
|
人工智能 运维 监控
大厂前端日常窥探「壹」:企业级软件开发流程长啥样?(下)
大厂前端日常窥探「壹」:企业级软件开发流程长啥样?
161 0
|
11月前
|
程序员 前端开发 JavaScript
大厂前端日常窥探「壹」:企业级软件开发流程长啥样?(上)
大厂前端日常窥探「壹」:企业级软件开发流程长啥样?
124 0
大厂前端日常窥探「壹」:企业级软件开发流程长啥样?(上)
|
12月前
|
前端开发 JavaScript 小程序
新来个技术总监,给公司项目引入了全新的业务架构,堪称最佳实践!
新来个技术总监,给公司项目引入了全新的业务架构,堪称最佳实践!
|
人工智能 搜索推荐 大数据
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术(一)
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术(一)
195 0
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术(一)
|
大数据 Apache 双11
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术(二)
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术(二)
332 0
女朋友问阿里双十一实时大屏如何实现,我惊呆一会,马上手把手教她背后的大数据技术(二)
|
机器学习/深度学习 分布式计算 DataWorks
|
存储
数据湖的终极奥秘,无招胜有招 |《阿里云数据湖存储解决方案蓝皮书》江湖亮相
作为海量数据存储与分析的重要承载方式的数据湖,从2011年概念诞生至今,已经发展了9个年头。而数据湖是什么?又能为数字化经济带来什么?《阿里云数据湖存储解决方案蓝皮书》将为您揭开数据湖的"江湖"——无招胜有招‘
1537 0
数据湖的终极奥秘,无招胜有招 |《阿里云数据湖存储解决方案蓝皮书》江湖亮相