《MapReduce 2.0源码分析与编程实战》一导读

简介: 我们处于一个数据大爆炸的时代。每时每刻、各行各业都在产生和积累海量的数据内容。这些数据中蕴含着进行业务活动、获取商业信息、做出管理决策的重要信息。如何处理这些数据并获取有价值的信息,是众多组织和单位面临的共同问题。


q1

前 言

MapReduce 2.0源码分析与编程实战
我们处于一个数据大爆炸的时代。每时每刻、各行各业都在产生和积累海量的数据内容。这些数据中蕴含着进行业务活动、获取商业信息、做出管理决策的重要信息。如何处理这些数据并获取有价值的信息,是众多组织和单位面临的共同问题。而这个问题的解决又依赖两项技术,一是能够对产生的业务数据进行统一管理和综合,并且能够无限扩展存储空间;二是能够有效处理获得的海量数据,在限定时间内获得处理结果的处理程序。

因此,寻求一个合理可靠的大数据处理决方案是目前数据处理的热点与重点。很多行业领导者把对大数据的处理看成互联网之后又一个能够获得竞争优势的关键性因素,把大数据处理能力作为其核心商业竞争力加以发展。这更凸显了大数据的战略意义。

目 录

第1章 大象也会跳舞
1.1 大数据时代
1.2 大数据分析时代
1.3 简单、粗暴、有效——这就是Hadoop
1.4 MapReduce与Hadoop
1.5 看,大象也会跳舞
1.6 本章小结
第2章 大象的肚子——HDFS文件系统详解
第3章 “吃下去吐出来”——Hadoop文件I/O系统详解
第4章 “大象的大脑”——MapReduce框架结构与源码分析
第5章 深入!MapReduce配置与测试
第6章 大象的思考流程——MapReduce运行流程详解
第7章 更强的大象——MapReduce高级程序设计续
第8章 MapReduce相关特性详解
第9章 啤酒与尿布——MapReduce连接 与数据挖掘初步
第10章 MapReduce实战编程及深度分析

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
缓存 分布式计算
MapReduce执行机制之Map和Reduce源码分析
MapReduce执行机制之Map和Reduce源码分析
138 0
|
分布式计算 Java
MapReduce中map并行度优化及源码分析
mapTask并行度的决定机制   一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分成逻辑上的多个split),然后每一个split分配一个mapTask并行实例处理。
1229 0
|
存储 分布式计算
MapReduce源码分析之Task中关于对应TaskAttempt存储Map方案的一些思考
        我们知道,MapReduce有三层调度模型,即Job——>Task——>TaskAttempt,并且:         1、通常一个Job存在多个Task,这些Task总共有Map Task和Redcue Task两种大的类型(为简化描述,Map-Only作业、JobSetup Task等复杂的情况这里不做考虑);         2、每个Task可以尝试运行1-n此,而且通常很多情况下都是1次,只有当开启了推测执行原理且存在拖后腿Task,或者Task之前执行失败时,Task才执行多次。
1125 0
|
资源调度 分布式计算 调度
Yarn源码分析之MapReduce作业中任务Task调度整体流程(一)
        v2版本的MapReduce作业中,作业JOB_SETUP_COMPLETED事件的发生,即作业SETUP阶段完成事件,会触发作业由SETUP状态转换到RUNNING状态,而作业状态转换中涉及作业信息的处理,是由SetupCompletedTransition来完成的,它主要做了...
1107 0
|
分布式计算 调度
MapReduce源码分析之作业Job状态机解析(一)简介与正常流程浅析
        作业Job状态机维护了MapReduce作业的整个生命周期,即从提交到运行结束的整个过程。Job状态机被封装在JobImpl中,其主要包括14种状态和19种导致状态发生的事件。         作业Job的全部状态维护在类JobStateInternal中,如下所示: publ...
975 0
|
资源调度 分布式计算 存储
Yarn源码分析之MRAppMaster上MapReduce作业处理总流程(一)
        我们知道,如果想要在Yarn上运行MapReduce作业,仅需实现一个ApplicationMaster组件即可,而MRAppMaster正是MapReduce在Yarn上ApplicationMaster的实现,由其控制MR作业在Yarn上的执行。
1081 0