《深入理解Hadoop（原书第2版）》——第1章为什么会有大数据 1.1 什么是大数据-阿里云开发者社区

《深入理解Hadoop（原书第2版）》——第1章为什么会有大数据 1.1 什么是大数据

2017-05-02 1358

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章计算机《深入理解Hadoop（原书第2版）》一书中的第1章，第1.1节，作者 [美]萨米尔·瓦德卡（Sameer Wadkar），马杜·西德林埃（Madhu Siddalingaiah），杰森·文纳（Jason Venner），译于博，冯傲风，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

第1章

为什么会有大数据

随着近20多年来计算技术的不断革新，企业积累了大量数据。数字传感器的进步使得通信系统越来越广泛的使用，尤其是移动平台和移动终端的飞速增长；系统运行产生的大量日志以及越来越多的企业采用无纸化办公的工作方式，这些情况都使得企业积攒起了海量数据资源。并且随着人们对现代科技越来越多的依赖，数据将会以更快的速度增长下去。

摩尔定律告诉我们，大约每隔两年，计算机的性能将历史性地提升一倍。最初，计算资源的提升速度满足了飞速增长的数据的处理需求。好景不长，到2005年前后，数据处理需求增长的速度已经快于计算资源处理能力的提升速度。

计算机工业界想到了另外一个更加经济有效的解决办法，就是数据的并行处理。既然单台计算机无法满足大数据量的计算需求，那就用多台计算机来并行处理这些海量数据。Hadoop就是利用互相联网的多台计算机使用MapReduce（一种改进的单指令多数据流[SIMD]计算技术）来并行地处理计算大量数据。

像亚马逊、谷歌、微软这样的公司为我们提供了较为廉价的云计算服务，使得分布式并行计算的概念更加深入人心，相比于购买计算资源，我们只要花少量的费用就可以租用相应的计算资源。

本书是使用Hadoop平台来开发和运行软件的实用指南。Hadoop项目起初由Apache Software Foundation来负责管理，目前像Cloudera、MapR和Hortonworks这样的公司也加入到维护发展它的阵营中。本章会从整体上介绍大数据的由来以及Hadoop项目。

1.1 什么是大数据

就本书而言，大数据（Big Data）姑且定义为无法被符合服务等级协议（service level agreement，SLA）的单台计算机处理或（有些时候）存储的任何数据集。后续内容会有更精确的解释。理论上讲，单台计算机可以处理任意规模的数据。对于超过单台计算机存储量的海量数据，可以存放到类似网络附属存储（network attached storage，NAS）这样的共享存储设备中，然后输入到单台计算机去计算处理。但是，这样处理数据所花费的时间往往会大大超过允许的数据处理时间。

举个简单的例子。某个业务单元每次平均需要处理200GB的数据，数据的读取速率是每秒钟50MB。如果按照每秒钟50MB的数据读取速率来计算，顺序读取硬盘上的100MB数据，需要两秒钟，读取全部的200GB数据就大约需要一个小时了。然而这200GB的数据要求在5分钟之内处理完毕。如果这个业务处理的200GB数据可以被平均分布到100个计算节点，每个节点处理分配的数据（举一个简单的用例，假设用SALES_YEAR>2001这样一条简单的准则来划分数据集），去掉这100个计算节点的CPU处理时间和数据结果整合的时间，整个数据处理过程会在1分钟之内完成。

这个简单的例子说明，大数据是一个相对的概念，是相对于我们的业务需求而言的。

Jeff Dean 博士有一篇关于并行计算的论文，详见http://www.cs.cornell.edu/projects/ladis2009/talks/dean-keynote-ladis2009pdf 。从本地磁盘顺序读取1MB数据需要2千万纳秒。从速度为1 Gbps 的网络中读取1MB的数据需要2亿5千万纳秒（假定传输2KB的数据需要25万纳秒，还要返回传输确认，这样每传输2KB数据需要网络往返共50万纳秒的时间）。虽然文中的描述稍显过时，数据的传输读取绝对速度已经有了提高，但是这不妨碍我们在本章中拿来做比照，因为这些数据之间的相对值变化不大。

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

《深入理解Hadoop（原书第2版）》——第1章为什么会有大数据 1.1 什么是大数据

第1章

为什么会有大数据

1.1 什么是大数据

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《深入理解Hadoop（原书第2版）》——第1章 为什么会有大数据 1.1 什么是大数据

第1章

为什么会有大数据

1.1 什么是大数据

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《深入理解Hadoop（原书第2版）》——第1章为什么会有大数据 1.1 什么是大数据