通用网络信息采集器(爬虫)设计方案

简介:

一、引言

  Heritrix3.X与1.X版本变化比较大,基于此带来的Extractor定向扩展方法也受到影响,自定义扩展方面因为接口的变化受阻,从而萌生了通用网络信息采集器设计的想法。一直没有一个好的网络信息采集器,必须能够适应下载对象的多样性和下载内容的复杂性。比如需要同时下载100多家主流媒体的新闻信息,并解析入库等。本文围绕通用网络信息采集器的设计展开。

二、需求分析

  一个好的网络爬虫必须满足通用性、多任务、定向性和可扩展性。

通用性是指可以满足不同格式下载对象的下载,如HTML、JS、PDF等等;多任务是指同时可以执行多个下载任务,即不同的网络站点;定向性是指可以根据自己的业务需求定向下载,即只下载自己关注的网页,其他无关页面自动过滤掉。比较好的是开源社区有很多可用的资源,比较不好的是能同时满足以上需求的软件非常少,好在Heritrix3.X就是能够满足的之一,不过需要自己编写代码,扩展Extrator,实现其定向下载。

三、架构设计

  以下部分是期待中网络信息采集器的逻辑架构。如下图所示:

 每一个目标任务代表一个下载渠道,比如sina、sohu等,下载规则负责URL过滤,只下载满足规则的内容,比如新闻;解析规则负责已经下载下来的内容的过滤,只选择我想要的东西,比如新闻标题、内容、评论等;元数据规则定义数据入库规则,任务与元数据规则关联实现自动入库。

四、成果展现

  博客园躺着中枪了,以我个人的技术博客作为下载目标,以下部分展现的是我通过定向扩展后的下载结果:

P文件夹中的内容,代表具体的网页:

五、遗留问题

  1.URL发现是否有必要独立,单独做成工具,根据入口网址+过滤规则,输出待下载对象的URL地址?当前采用的模式是复合式,逻辑上分离,物理上耦合。

  2.如何实现增量下载和循环运行,当前任务启停是通过人工干预。需要改进。

目录
相关文章
|
14天前
|
安全 测试技术 网络架构
【专栏】编写网络设备割接方案的七个步骤,包括明确割接目标、收集信息、制定计划、设计流程、风险评估、准备测试环境和编写文档。
【4月更文挑战第28天】本文介绍了编写网络设备割接方案的七个步骤,包括明确割接目标、收集信息、制定计划、设计流程、风险评估、准备测试环境和编写文档。通过实际案例分析,展示了如何成功完成割接,确保业务连续性和稳定性。遵循这些步骤,可提高割接成功率,为公司的网络性能和安全提供保障。
|
4天前
|
SQL 安全 算法
网络防线的构筑者:深入网络安全与信息保护
【5月更文挑战第8天】在数字时代,数据成为了新的金矿,而网络安全则是守护这些宝贵资源的堡垒。本文将探讨网络安全漏洞的形成、加密技术的应用以及提升个人和企业的安全意识的重要性。通过对网络威胁的剖析和防护策略的介绍,旨在为读者提供一系列实用的网络安全知识与实践指导。
7 1
|
5天前
|
安全 算法 网络安全
网络防线的构筑者:洞悉网络安全与信息保护
【5月更文挑战第7天】在数字化时代,数据成为了新的石油。随之而来的是对数据安全和隐私保护的挑战。本文深入探讨了网络安全漏洞的概念、成因以及它们对个体和企业造成的潜在危害。同时,文章将解析加密技术的种类和原理,以及它们如何成为维护信息安全不可或缺的工具。此外,强调了提升安全意识的重要性,并提出了实用的策略和建议,以增强个人和组织在面对日益复杂的网络威胁时的防御能力。
43 4
|
5天前
|
云安全 安全 网络安全
构筑安全之云:云计算环境下的网络安全与信息保护
【5月更文挑战第7天】 随着信息技术的飞速发展,云计算已成为支撑现代企业运作的重要基石。然而,伴随其便利性与高效性的,是对网络安全和信息保护的新挑战。本文旨在深入探讨云计算环境中所面临的核心安全威胁,并分析现有及新兴的安全技术如何协同作用以强化数据保护。通过综合评估不同防护策略的优势与局限,文章提出了一个多层次、动态适应的安全框架,以期为构建更为坚固的云上防线提供参考和启示。
|
6天前
|
SQL 安全 网络安全
网络堡垒的构建者:深入网络安全与信息保护
【5月更文挑战第6天】 在数字化浪潮不断推进的今天,网络安全和信息安全成为了维护个人隐私、企业商业秘密和国家安全的重要议题。本文将探讨网络安全中的漏洞问题、加密技术的进展以及提升安全意识的必要性。通过分析当前网络攻击手段的复杂性,我们揭示了安全漏洞产生的原因及其对系统安全的潜在威胁。同时,文章还将介绍最新的加密技术如何为数据传输提供强有力的保护,并讨论如何通过培训和教育来增强用户的安全意识,以形成更为坚固的网络防线。
|
8天前
|
存储 安全 物联网
网络防御前线:洞悉网络安全漏洞与加固信息防线
【5月更文挑战第4天】 在数字化时代,网络安全已成为维护信息完整性、确保数据传输安全的关键阵地。本文将深入探讨网络安全领域的重要议题—包括识别和应对安全漏洞、应用加密技术以及提升个体和企业的安全意识。通过对这些关键要素的剖析,我们旨在为读者提供一个关于如何构建坚固网络防御体系的全面视角。
30 6
|
12天前
|
安全 算法 网络安全
数字堡垒的构筑者:网络安全与信息加密技术纵览
【4月更文挑战第30天】在数字化时代,数据如同虚拟世界中的流通货币,而网络安全则是保护这些数据的堡垒。本文深入探讨了网络安全漏洞的概念、危害及其产生的原因;同时详细介绍了加密技术的基本原理、类型以及它们在信息安全中的应用。此外,文章还强调了提升个人和企业的安全意识在构建安全防线中的重要性。通过分析当前网络威胁和防御策略的最新动态,旨在为读者提供全面的网络安全知识框架,帮助大家构建更加坚固的数字堡垒。
|
12天前
|
存储 安全 网络安全
云端防御:云计算环境中的网络安全与信息保护策略
【4月更文挑战第30天】 在数字化浪潮的推动下,云计算已成为企业及个人存储和处理数据的重要平台。随之而来的是对网络安全和信息保护的新挑战。本文将深入探讨云计算环境下的网络安全威胁,分析云服务模型(IaaS, PaaS, SaaS)中存在的安全漏洞,并提出一系列创新性的信息保护策略。通过这些策略,旨在为读者提供一个清晰的指导框架,以增强云环境的安全性和数据的保密性。
|
13天前
|
监控 安全 网络安全
云端防御:云计算环境中的网络安全与信息保护策略
【4月更文挑战第29天】 随着企业逐渐将数据和服务迁移到云平台,云计算的安全性已成为不容忽视的挑战。本文深入探讨了在动态且复杂的云计算环境中,如何实施有效的网络安全措施和信息保护策略。我们分析了当前云服务模型中存在的安全漏洞,并提出了一套多层次、综合性的安全框架,旨在增强数据隐私性、完整性以及服务的可用性。通过采用最新的加密技术、身份认证机制和持续监控手段,我们的目标是为使用云服务的组织提供一个可靠的安全指南。
|
14天前
|
云安全 安全 网络安全
构建安全防线:云计算环境中的网络安全与信息保护
【4月更文挑战第28天】 随着企业和个人日益依赖云服务,云计算的安全性已成为一个不可忽视的挑战。本文深入探讨了云计算平台中的网络安全和信息保护策略,包括最新的加密技术、身份验证协议以及入侵检测系统。通过对现有安全框架的分析,提出了一系列创新的安全措施,旨在提高数据保密性、完整性和可用性。文章还讨论了未来云计算安全研究的潜在方向,为云服务提供商和用户之间的信任建立提供了新的视角。