本节书摘来自华章出版社《Flume日志收集与MapReduce模式》一书中的第1章,第1.1节,作者 [美] 史蒂夫·霍夫曼(Steve Hoffman)斯里纳特·佩雷拉(Srinath Perera),更多章节内容可以访问云栖社区“华章计算机”公众号查看
第1章
概览与架构
如果在阅读本书,那就说明你正在数据的海洋中遨游。创建大量的数据是非常简单的事情,这要归功于Facebook、Twitter、Amazon、数码相机与相机照片、YouTube、Google,以及你能想得到的能够连接到互联网上的任何东西。作为网站的提供者,10年前的应用日志只是用来帮助你解决网站的问题。时至今日,如果你知道如何从大量的数据中浪里淘金,那么相同的数据就会提供关于业务与客户的有价值的信息。
此外,既然在阅读本书,那么你肯定知道创建Hadoop的目的在一定程度上就是为了解决大量数据的筛选问题。当然了,只有可靠地加载Hadoop集群数据并供数据科学家从中选择,这一切才能达成所愿。
将数据存储到Hadoop以及从Hadoop中获取数据(即Hadoop文件系统,HDFS)并不是什么难事——只需要如下一条命令即可:
将数据打包好并准备上传时,使用上面这条命令就可以轻松将数据存储到Hadoop文件系统中。
不过,网站一直在创建着数据,批量将数据加载到HDFS中的频率是多少呢?每天?每小时?无论选择何种处理周期,最终还是会有人问“能否尽快给我数据呢”?你真正需要的是能够处理流式日志/数据的解决方案。
并不是只有你才有这种需求。Cloudera(专业的Hadoop服务提供商,拥有自己的Hadoop分发版本)在与客户的协作过程中不断发现了这种需求。创建Flume的目的就在于满足这种需求,它创建了一个标准、简单、健壮、灵活且可扩展的工具,用于将数据存储到Hadoop中。