史上最快! 10小时大数据入门(二)-初识Hadoop-阿里云开发者社区

史上最快! 10小时大数据入门(二)-初识Hadoop

2018-06-15 1162

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 官网首页...

# 初识Hadoop ## 1 Hadoop概述 Hadoop项目作者的孩子给一个棕黄色的大象样子的填充玩具的命名。 ### Hadoop能做什么搭建大型数据仓库，PB级数据的存储、处理、分析、统计等业务 ### Hadoop核心组件 - 分布式文件系统HDFS 源于Google的GFS论文，发表于2003.10。HDFS是GFS的克隆版 HDFS特点：扩展性&容错性&海量数量存储将文件切分成指定大小的数据块，并以多副本的存储在多个机器上。数据切分、多副本、容错等操作对用户是透明的。 Block Replication ```scala Namenode(Filename, numReplicas, block-ids, ..) /users/javaedge/data/part-0, r:2, {1,3},... /users/javaedge/data/part-1, r:3, {2,4,5},... ``` Datanodes： ![](https://img-blog.csdnimg.cn/ffbbb4e8a5c347fea5099c1a90a95b63.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmF2YUVkZ2Uu,size_20,color_FFFFFF,t_70,g_se,x_16) ## Hadoop核心组件 - 资源调度系统YARN Yet Another Resource Negotiator，Hadoop 的集群资源管理系统。 YARN 在 Hadoop 2 中被引入以改进 MapReduce 实现，但它也足以支持其他分布式计算范例。特点：扩展性&容错性&多框架资源统一调度。 YARN 提供了用于请求和使用集群资源的 API，但这些 API 通常不被用户代码直接使用。相反，用户写入分布式计算框架提供的更高级别的 API，这些框架本身构建在 YARN 之上，并对用户隐藏资源管理细节。这种情况如下图所示，一些分布式计算框架（MapReduce、Spark 等）作为 YARN 应用程序在集群计算层（YARN）和集群存储层（HDFS 和 HBase）上运行。 YARN applications： ![](https://img-blog.csdnimg.cn/95a38a35f99c42579fda47fcb409b7cf.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBASmF2YUVkZ2Uu,size_20,color_FFFFFF,t_70,g_se,x_16) ![](https://upload-images.jianshu.io/upload_images/4685968-ce6788fca97f198c.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ## Hadoop核心组件之分布式计算框架MapReduce 源自于Google的MapReduce论文，发表于2004年12月。MapReduce是Google MapReduce的克隆版 MapReduce特点：扩展性&容错性&海量数量离线处理 ![](https://upload-images.jianshu.io/upload_images/4685968-2f0d9fcc6e84e6c7.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ### Hadoop优势之高可靠性 - 数据存储：数据块多副本 - 数据计算：重新调度作业计算 ### Hadoop优势之高扩展性 - 存储/计算资源不够时，可以横向的线性扩展机器 - 一个集群中可以包含数以干计的节点 ### Hadoop优势之其他存储在廉价机器上，降低成本成熟的生态圈 ## 狭义Hadoop V.S 广义Hadoop 狭义的Hadoop：是一个适合大数据分布式存储( HDFS )、分布式计算(MapReduce)和资源调度( YARN )的平台。 - 广义的Hadoop 指的是Hadoop生态系统，Hadoop生态系统是一个庞大概念，hadoop是其中最重要最基础的一个部分;生态系统中的每一子系统只解决某一个特定的问题域 (甚至可能很窄)，不搞统一型的一个全能系统，而是小而精的多个小系统。 ![](https://upload-images.jianshu.io/upload_images/4685968-c2fcacf7e4e9f541.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240) ## Hadoop生态系统的特点 - 开源、社区活跃 - 囊括了大数据处理的方方面面 - 成熟的生态圈 ## Hadoop常用发行版及选型 - Apache Hadoop - CDH : Cloudera Distributed Hadoop - HDP : Hortonworks Data Platform

相关实践学习

简单用户画像分析

本场景主要介绍基于海量日志数据进行简单用户画像分析为背景，如何通过使用DataWorks完成数据采集、加工数据、配置数据质量监控和数据可视化展现等任务。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps 

史上最快! 10小时大数据入门(二)-初识Hadoop

热门文章

最新文章

相关课程

相关电子书

相关实验场景