网络爬虫之Windows环境Heritrix3.0配置指南

简介:

一、引言:

  最近在忙某个商业银行的项目,需要引入外部互联网数据作为参考,作为技术选型阶段的工作,之前已经确定了中文分词工具,下一个话题就是网络爬虫的选择,目标很明确,需要下载一些财经网站的新闻信息,然后进行文本计算。记得上一次碰爬虫还是5年前,时过境迁,不知道爬虫的世界里是否有了新的崛起。比较过一些之后,初步认定Heritrix基本能够满足需要,当然肯定是需要定制的了。

二、版本选择

  Heritrix当前版本3.1.0,安装后发现,启动任务时,Windows平台有BDBOpen的错误(具体原因不详),Linux环境没有测试。度娘了一把,没啥实质性收获,如果从源码去看,又太费时间。就换到了3.0.5,这个版本也有问题,就是创建Job时,总是提示文件夹有问题,可以选择手动创建下载任务。操作界面如下图所示:

三、配置任务-手动

  1.jobs目录下新建文件夹sohu;

  2.拷贝模板文件profile-crawler-beans.cxml到sohu目录

  3.重命名profile-crawler-beans.cxml文件为crawler-beans.cxml

  4.手动修改文件crawler-beans.cxml,设置目标网站和存储方式:


# This Properties map is specified in the Java 'property list' text format
# http://java.sun.com/javase/6/docs/api/java/util/Properties.html#load%28java.io.Reader%29

metadata.operatorContactUrl=http://localhost
metadata.jobName=sohu
metadata.description=sohujingxuan

##..more?..##
   </value>
  </property>
 </bean>

 <!-- overrides from declared <prop> elements, more easily allowing
      multiline values or even declared beans -->
 <bean id="longerOverrides" class="org.springframework.beans.factory.config.PropertyOverrideConfigurer">
  <property name="properties">
   <props>
    <prop key="seeds.textSource.value">

# URLS HERE
http://t.sohu.com/jingxuan

    </prop>
   </props>
  </property>
 </bean>

 <!-- CRAWL METADATA: including identification of crawler/operator -->
 <bean id="metadata" class="org.archive.modules.CrawlMetadata" autowire="byName">
       <property name="operatorContactUrl" value="http://localhost"/>
       <property name="jobName" value="sohu"/>
       <property name="description" value="sohujingxuan"/>
  <!-- <property name="operator" value=""/> -->
  <!-- <property name="operatorFrom" value=""/> -->
  <!-- <property name="organization" value=""/> -->
  <!-- <property name="audience" value=""/> -->
  <!-- <property name="userAgentTemplate" 
         value="Mozilla/5.0 (compatible; heritrix/@VERSION@ +@OPERATOR_CONTACT_URL@)"/> -->
       
 </bean>

四、停用Robots检查

  改造函数,禁用Robots协议检查,目的就不说了,改造方法如下:

    private boolean considerRobotsPreconditions(CrawlURI curi) {
        // treat /robots.txt fetches specially
        //++zhangzl:取消robots.txt的强制限制
        return false;        
        //--

  }

五、后续工作

1.定向下载改造:只下载目标内容,过滤无关信息。

2.自动解析改造:下载内容自动解析到指定目录,指定格式。


目录
相关文章
|
18天前
|
存储 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息保护
在信息技术迅猛发展的今天,云计算作为支撑数字转型的重要基石,其安全性牵动着企业生存与发展的命脉。本文深入探讨了云计算环境中面临的安全威胁和挑战,并提出了一系列创新的安全策略和技术解决方案。通过综合分析公有云、私有云以及混合云服务模型中的安全需求,文章构建了一个多层次、全方位的网络安全防护体系。此外,针对数据加密、身份验证、访问控制等关键技术进行了深入剖析,旨在为读者提供一套系统的信息安全保护指南,确保在享受云计算带来的便利时,数据和资源的安全性不被妥协。
33 8
|
28天前
|
监控 Linux Shell
【Shell 命令集合 网络通讯 】Linux 配置和管理网络流量的形状 shapecfg命令 使用指南
【Shell 命令集合 网络通讯 】Linux 配置和管理网络流量的形状 shapecfg命令 使用指南
38 0
|
28天前
|
网络协议 Shell Linux
【Shell 命令集合 网络通讯 】Linux 设置和配置PPP pppsetup命令 使用教程
【Shell 命令集合 网络通讯 】Linux 设置和配置PPP pppsetup命令 使用教程
36 0
|
28天前
|
缓存 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 配置DNS dnsconf 命令 使用教程
【Shell 命令集合 网络通讯 】Linux 配置DNS dnsconf 命令 使用教程
38 0
|
29天前
|
存储 监控 安全
云端防御战线:云计算环境中的网络安全与信息防护策略
【2月更文挑战第30天】 随着企业数字化转型的加速,云计算以其弹性、可伸缩性和成本效益成为支撑现代业务架构的关键平台。然而,云服务的广泛采用也引入了新的安全挑战,从数据泄露到服务中断,风险无处不在。本文探讨了在云计算环境下维护网络安全和信息安全的高级策略和技术,分析了云服务模型特有的安全威胁,并提出了综合防御框架以保护云基础设施和数据。通过深入剖析身份认证、加密技术、入侵检测系统以及合规性监控等关键技术手段,文章旨在为读者提供一套全面的参考方案,确保在享受云计算带来的便利时,也能有效地规避潜在的网络风险。
|
29天前
|
云安全 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息防护
【2月更文挑战第30天】 随着企业数字化转型的深入,云计算已成为支撑现代业务的关键基础设施。然而,云环境的开放性、复杂性和动态性也给网络安全带来了前所未有的挑战。本文聚焦于分析云计算环境中的网络安全威胁、信息安全风险以及相应的防护策略。通过综合运用加密技术、身份认证机制、入侵检测系统和安全事件管理,我们构建了一个多层次的安全防线,旨在为云服务提供全方位的保护。此外,文中还探讨了合规性在保障信息安全中的重要性,并提出了未来云计算安全研究的方向。
|
28天前
|
域名解析 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 设置和管理网络接口配置信息 netconfig命令 使用指南
【Shell 命令集合 网络通讯 】Linux 设置和管理网络接口配置信息 netconfig命令 使用指南
49 1
|
28天前
|
存储 安全 网络安全
构筑安全堡垒:云计算环境下的网络安全与防护策略
【2月更文挑战第31天】 在信息技术迅猛发展的当代,云计算以其高效、灵活和成本优化的特点成为企业数字化转型的重要支撑。然而,随着云服务的广泛应用,数据的安全与隐私保护问题也日益凸显。本文将深入探讨在复杂多变的云计算环境中,如何通过创新技术和策略加强网络安全防护,确保信息安全。我们将分析当前云计算服务中存在的安全威胁,探讨加密技术、身份认证、访问控制以及入侵检测等关键技术的应用,并提出一个多层次、综合性的安全防护框架,以助力企业在享受云计算便利的同时,有效防范安全风险。
|
7天前
|
存储 算法 Linux
【实战项目】网络编程:在Linux环境下基于opencv和socket的人脸识别系统--C++实现
【实战项目】网络编程:在Linux环境下基于opencv和socket的人脸识别系统--C++实现
22 6
|
10天前
|
网络协议 Linux
在Linux中,管理和配置网络接口
在Linux中管理网络接口涉及多个命令,如`ifconfig`(在新版本中被`ip`取代)、`ip`(用于网络设备配置)、`nmcli`(NetworkManager的CLI工具)、`nmtui`(文本界面配置)、`route/ip route`(处理路由表)、`netstat/ss`(显示网络状态)和`hostnamectl/systemctl`(主机名和服务管理)。这些命令帮助用户启动接口、设置IP地址、查看连接和路由信息。不同发行版可能有差异,建议参考相应文档。
19 4

热门文章

最新文章