Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案

  1. 云栖社区>
  2. 阿里云存储服务>
  3. 博客>
  4. 正文

Logtail技术分享(一) : Polling + Inotify 组合下的日志保序采集方案

元乙 2017-09-12 23:31:59 浏览7467
展开阅读全文

日志数据采集

提到数据分析,大部分人首先想到的都是Hadoop,流计算,API等数据加工的方式。如果从整个过程来看,数据分析其实包含了4个过程:采集,存储,计算和理解四个步骤。

  • 采集:从各种产生数据的源头,将数据集中到存储系统。包括硬盘上的历史数据,用户网页的点击,传感器等等
  • 存储:以各种适合计算的模式集中式存储数据,其中既包含大规模的存储系统(例如数仓),也有例如临时的存储(例如Kafka类消息中间件)
  • 计算:形态多种多样,但大部分计算完成后会将结果再放入存储
  • 理解:利用机器学习、可视化、通知等手段将结果呈现出来

0a59a98b15da6d2f7803daa9af76567e.png

数据采集是一门很大的范畴,从实时性上和规模上分,一般可以分为3类:

  • 实时采集:例如日志,database change log等
  • 定时任务:例如每隔5分钟从FTP或数据源去批量导出数据
  • 线下导数据:例如邮寄硬盘,AWS Snowmobi

网友评论

登录后评论
0/500
评论
元乙
+ 关注
所属云栖号: 阿里云存储服务