《Flume日志收集与MapReduce模式》一第1章概览与架构-阿里云开发者社区

《Flume日志收集与MapReduce模式》一第1章概览与架构

2017-05-02 1239

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章，第1.1节，作者［美］史蒂夫·霍夫曼（Steve Hoffman）斯里纳特·佩雷拉（Srinath Perera），更多章节内容可以访问云栖社区“华章计算机”公众号查看

第1章

概览与架构
如果在阅读本书，那就说明你正在数据的海洋中遨游。创建大量的数据是非常简单的事情，这要归功于Facebook、Twitter、Amazon、数码相机与相机照片、YouTube、Google，以及你能想得到的能够连接到互联网上的任何东西。作为网站的提供者，10年前的应用日志只是用来帮助你解决网站的问题。时至今日，如果你知道如何从大量的数据中浪里淘金，那么相同的数据就会提供关于业务与客户的有价值的信息。
此外，既然在阅读本书，那么你肯定知道创建Hadoop的目的在一定程度上就是为了解决大量数据的筛选问题。当然了，只有可靠地加载Hadoop集群数据并供数据科学家从中选择，这一切才能达成所愿。
将数据存储到Hadoop以及从Hadoop中获取数据（即Hadoop文件系统，HDFS）并不是什么难事——只需要如下一条命令即可：

将数据打包好并准备上传时，使用上面这条命令就可以轻松将数据存储到Hadoop文件系统中。
不过，网站一直在创建着数据，批量将数据加载到HDFS中的频率是多少呢？每天？每小时？无论选择何种处理周期，最终还是会有人问“能否尽快给我数据呢”？你真正需要的是能够处理流式日志/数据的解决方案。
并不是只有你才有这种需求。Cloudera（专业的Hadoop服务提供商，拥有自己的Hadoop分发版本）在与客户的协作过程中不断发现了这种需求。创建Flume的目的就在于满足这种需求，它创建了一个标准、简单、健壮、灵活且可扩展的工具，用于将数据存储到Hadoop中。

《Flume日志收集与MapReduce模式》一第1章概览与架构

第1章

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Flume日志收集与MapReduce模式》一第1章 概览与架构

第1章

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Flume日志收集与MapReduce模式》一第1章概览与架构