使用Hive处理服务器日志

  1. 云栖社区>
  2. 阿里云E-MapReduce(EMR)>
  3. 博客>
  4. 正文

使用Hive处理服务器日志

eric-li 2016-05-23 16:00:35 浏览3091
展开阅读全文

假设这样一个场景,用户有许多的机器(ECS或者自有机房的都可以),每天产生非常多的日志,记录了用户的访问的一些信息,比如userId,访问的页面地址,访问的时间,访问Ip等等。我们对这些数据进行一个离线分析,每天分析一次,计算网站的各个页面的UV、PV,并观察一下是否有作弊的情况:如多个不同的账号来自于同一个IP。并能将最终的这个结果同步到数据库中,在管理后台查看。

那么使用E-MapReduce要如何来做呢?

第一步 获取日志数据

首先,我们需要获取所有服务器的日志数据。这个可以通过阿里云的日志服务(SLS)来完成。
可以安装日志服务的客户端到指定的机器上,然后在日志服务的控制台进行数据收集配置,就能够把数据收集上来了。
具体的可以参考日志服务使用说明
你可以在配置中指定你需要收集的目录和文件名,通过这一步,所有的机器上的日志就都会被收集到

网友评论

登录后评论
0/500
评论
eric-li
+ 关注
所属云栖号: 阿里云E-MapReduce(EMR)