基于分布式流计算平台(storm)的CGI采集与清理系统

简介: 博文作者:雕哥 发布日期:2014-01-09 阅读次数:56 博文内容:         CGI好比Web漏洞扫描器的眼睛,只有CGI更全更准,Web漏洞扫描器才能更好的“看到”漏洞,为业务的Web安全保驾护航。

博文作者:雕哥

发布日期:2014-01-09

阅读次数:56

博文内容:


        CGI好比Web漏洞扫描器的眼睛,只有CGI更全更准,Web漏洞扫描器才能更好的“看到”漏洞,为业务的Web安全保驾护航。本文简单介绍了基于分布式流计算平台Storm的海量CGI采集去重系统——Storm-Cgi。

1、开源分布式流计算平台Storm简介

        Storm是一个由Twitter公司开源的与Hadoop并驾齐驱的分布式,实时流计算系统。可以简单、可靠的处理大量的数据流。

1.1、Storm系统的主要特点

a、简单的编程模型。类似于MapReduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。

b、可以使用各种编程语言。你可以在Storm之上使用各种编程语言。默认支持Clojure、Java、Ruby和Python。要增加对其他语言的支持,只需实现一个简单的Storm通信协议即可。

c、容错性。Storm会管理工作进程和节点的故障。

d、水平扩展。计算是在多个线程、进程和服务器之间并行进行的。

e、可靠的消息处理。Storm保证每个消息至少能得到一次完整处理。任务失败时,它会负责从消息源重试消息。

f、快速。系统的设计保证了消息能得到快速的处理,可以使用ØMQ或Netty作为其底层消息队列。

1.2、Storm的组成

        Storm编程中的主要术语包括Stream、Spout、Bolt、Task、Worker、Stream Grouping和Topology。大体结构如下图:



1.3
、Storm的广泛应用


        Storm
在国内外的应用都相当广泛,包括Twitter,Yahoo等,国内公司有阿里,淘宝,腾讯,百度,360等。



2、Storm-Cgi系统整体架构


        Storm-Cgi
系统,采集CGI的来源主要有三种,分别是IDS光纤旁路出来HTTP请求日志文件,门神旁路的HTTP请求日志文件,还有Web2.0爬虫抓取的URL。Storm-Cgi中的Spout组件Valid_Rewrite_Spout从这些数据源中抓取CGI,并进行合法性过滤和Rewrite过滤, Http探测过滤,最终得到高质量的实际存在的CGI。Storm-Cgi系统还能从CGI库中读取库存CGI数据,进行迭代过滤,保证库存CGI数据的准确有效性。Storm-Cgi系统的整体架构如下图一所示。



图一 Storm-Cgi整体结构

 

3、主要模块的设计

3.1、Valid_Rewrite_Spout

        该模块负责从各数据源采集CGI,并做合法性过滤与Rewrite过滤。Valid_Rewrite_Spout会从不同格式的数据源中抓取出统一格式的CGI,并进行合法性验证与Rewrite过滤。合法性过滤包括:Host合法性验证,URL的Path段合法性过滤,请求的UA过滤,静态资源过滤等。Rewrite过滤能自动生成Rewrite规则,并迭代得过滤库存的CGI。

3.2、Pv_Bolt


        Storm-Cgi
系统读取的数据源包括了旁路的HTTP请求日志,在一段时间间隔内,必定有大量重复请求的CGI数据,这些数据其实只需要一个CGI走后续的过滤流程即可,避免重复CGI过滤带来的资源耗损。所以,Pv_Bolt模块的作用是拦截重复的CGI数据,起到降流去重的作用。数据显示,5分钟内,一个CGI被重复请求的次数有时可高达3万多次,平均10ms就被请求一次。

        Pv_Bolt就是CGI的统计缓存,缓存中统计了一个CGI在一段时间内的PV值和缓存它时的时间戳。该缓存中的CGI采用的淘汰算法为最近最少使用算法(LRU),将一段时间内PV小于3的CGI清理出去,避免缓存过大导致内存耗尽。同时,根据时间戳,将时间戳超过一定阈值的CGI也清理掉。这样,保证了CGI数据不会因后续流程故障等原因导致遗漏。

3.3、HttpAccess_Bolt


        HttpAccess_Bolt
的主要功能是对CGI进行HTTP探测过滤,探测一个CGI是否存在,即存在性验证。一个CGI的返回码HttpCode为404表示该CGI不存在,可以被过滤掉。还包括其他类型的CGI存在性验证过滤。比如公司不存在的页面都引用了一个公益404页面,这种CGI也可别过滤掉。

        HTTP探测过滤的规则可配置,能动态加载。过滤规则为一个JSON字符串。形式如图二所示


图二 HTTP探测规律规则形式


        HTTP
探过滤规则的设计,能支持全局过滤规则和特定域名的过滤规则两种,目前通用的HTTP探测规则主要有:公益404,图片404,HttpCode过滤等。HTTP探测过滤规则中最主要的是rule字段,它由多个规则子项组成,各规则子项是逻辑与的关系。只有当所有规则子项都为真时,该条HTTP探测规律规则才匹配。匹配了过滤规则的CGI将认为不存在,将被过滤掉。公益404页面的过滤规则可写成图三形式:


图三 公益404过滤规则

4、效果


        目前,Storm-Cgi是由分布在不同IDC机房的13台机器组成的小分布式集群,每天可处理2T左右的日志文件,每天平均过滤4亿个CGI数据,从中采集到5万左右准确的CGI(部分CGI在CGI库中已经存在)。整体效果如下图。


图四 Storm-Cgi分布式集群列表



图五 Storm-Cgi各组件过滤情况


5、
总结


        Storm-Cgi
能从大量的数据中实时地采集出海量的CGI数据,并通过合法性过滤,Rewrite过滤,HTTP探测过滤,最终得到准确的CGI数据,供Web漏洞扫描器做安全漏洞扫描。它好比Web漏洞扫描器的眼睛,能让Web漏洞扫描器透过海量脏的URL数据,看到真实准确的CGI,从而发现Web安全漏洞,使漏洞无处遁形。


相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
6天前
|
分布式计算 Ubuntu 调度
如何本地搭建开源分布式任务调度系统DolphinScheduler并远程访问
如何本地搭建开源分布式任务调度系统DolphinScheduler并远程访问
|
1月前
|
存储 分布式计算 大数据
现代化数据库技术——面向大数据的分布式存储系统
传统的关系型数据库在面对大规模数据处理时遇到了诸多挑战,而面向大数据的分布式存储系统应运而生。本文将深入探讨现代化数据库技术中的分布式存储系统,包括其优势、工作原理以及在大数据领域的应用。
|
1月前
|
消息中间件 存储 NoSQL
【Redis项目实战】使用Springcloud整合Redis分布式锁+RabbitMQ技术实现高并发预约管理处理系统
【Redis项目实战】使用Springcloud整合Redis分布式锁+RabbitMQ技术实现高并发预约管理处理系统
|
1月前
|
存储 Web App开发 运维
原来10张图就可以搞懂分布式链路追踪系统原理
原来10张图就可以搞懂分布式链路追踪系统原理
|
1月前
|
算法 Java 数据中心
分布式ID生成系统之雪花算法详解
在当今的云计算和微服务架构盛行的时代,分布式系统已成为软件开发的重要组成部分。随着系统规模的扩大和业务的复杂化,对数据一致性和唯一性的要求也越来越高,尤其是在全局唯一标识符(ID)的生成上。因此,分布式ID生成系统应运而生,成为保证数据唯一性和提高系统可扩展性的关键技术之一。雪花算法(Snowflake)是Twitter开源的一种算法,用于生成64位的全局唯一ID,非常适用于分布式系统中生成唯一标识符。下面我们将深入探讨雪花算法的原理、结构和实现方式。
98 2
 分布式ID生成系统之雪花算法详解
|
3月前
|
存储 供应链 安全
新一代数据库技术——基于区块链的分布式存储系统
传统数据库系统通常采用集中式存储结构,容易受到单点故障和数据篡改的影响。本文将介绍基于区块链技术的分布式存储系统,探讨其在数据库领域的应用和优势,以及面临的挑战和未来发展趋势。
175 1
|
3月前
|
消息中间件 存储 NoSQL
面试题解析:如何解决分布式秒杀系统中的库存超卖问题?
面试题解析:如何解决分布式秒杀系统中的库存超卖问题?
116 0
|
3月前
|
存储 监控 网络协议
百度基于金融场景构建高实时、高可用的分布式数据传输系统的技术实践
本文将通过一个百度搜索旗下的金融场景案例来分享构建高实时、高可用的分布式数据传输系统的技术实践。
51 0
|
3月前
|
中间件 测试技术 调度
设计一个简易版本的分布式任务调度系统
设计一个简易版本的分布式任务调度系统
86 0
|
4月前
|
消息中间件 监控 负载均衡
Kafka 最佳实践:构建可靠、高性能的分布式消息系统
Apache Kafka 是一个强大的分布式消息系统,被广泛应用于实时数据流处理和事件驱动架构。为了充分发挥 Kafka 的优势,需要遵循一些最佳实践,确保系统在高负载下稳定运行,数据可靠传递。本文将深入探讨 Kafka 的一些最佳实践,并提供丰富的示例代码,帮助大家更好地应用这一强大的消息系统。

热门文章

最新文章