网络采集器

简介: 引用:http://hi.baidu.com/%B4%F3%CE%B0/blog/item/941ed8b49ee58f6b8bd4b2e2.html 我们在浏览网页的时候,都会在浏览器地址栏中输入需要访问的地址,通常这些地址都是以HTTP打头,表明是采用HTTP协议实现和站点通讯,HTTP准确的说法是超文本传输协议,归根结底还是文本,所以传输的内容就是文本,浏览的网页也是文本,这就是我们可以采集网站数据的根本。

引用:http://hi.baidu.com/%B4%F3%CE%B0/blog/item/941ed8b49ee58f6b8bd4b2e2.html

我们在浏览网页的时候,都会在浏览器地址栏中输入需要访问的地址,通常这些地址都是以HTTP打头,表明是采用HTTP协议实现和站点通讯,HTTP准确的说法是超文本传输协议,归根结底还是文本,所以传输的内容就是文本,浏览的网页也是文本,这就是我们可以采集网站数据的根本。

同时,在地址栏中我们还会看到网址中会包含www的字样,这表示我们请求的是Web服务,WWW服务(3W服务)是目前应用最广的一种基本互联网应用。WWW服务使用的是超文本链接(HTML),所以可以很方便的从一个信息页转换到另一个信息页。它不仅能查看文字,还可以欣赏图片、音乐、动画。

至此,我们知道,浏览网页实际是采用HTTP协议向Web服务请求一个超文本(HTML),这个超文本包含有文字、图片、音乐等内容,这就是我们最终看到的网页。同时我们所采集的数据也包含在这个超文本中。超文本(HTML)有自己的规则,通过这些规则,浏览器会自动识别超文本格式,知道该用何种方式展示页面,这也是我们看到不同网页风格的根本。如果我们通过浏览器,查看网页源码就会发现很多<>标识的内容,这就是HTML的规范内容,当然还有很多其他规范。

手工方式进行数据采集流程:

1、用浏览器(浏览器可是IE、Firefox)打开一个网页

2、用浏览器查看网页源代码(Firefox)或查看源文件(IE)的功能打开这个网页的传输文本内容

3、可以把这个文本内容全部拷贝到一个专业的文本编辑工具中,譬如:UltraEdit,也或者直接采用浏览器自带的功能

4、通过查找的功能,开始查找您想要的内容

5、找到之后需要把它拷贝出来

参考资料

网络矿工数据采集软件用户手册
http://www.soukey.com/help/index.html

 

C#多线程网页采集器(Spider)

http://programmingcanruinyourlife.themz.cn/spider.html

 

asp.net采集函数(采集、分析、替换、入库一体)

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484548.aspx

 

ASP.NET(C#)经典采集代码

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484534.aspx

 

asp.net下数据采集方法及示例

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484481.aspx

 

魏言ASP.NET数据采集封装类,封装了所有数据采集需要的方法

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484469.aspx

 

log4net使用详解

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484462.aspx

 

ASP.NET采集系统万能正则表达式

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484557.aspx

 

.NETC#群发HTML格式带附件中文发送者密送抄送的邮件

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484564.aspx

 

.net程序中资源文件的保护办法探讨

http://blog.csdn.net/mubingyun/archive/2008/12/09/3484567.aspx

 

C#利用代理(proxy)爬网

http://blog.csdn.net/mubingyun/archive/2008/10/31/3194288.aspx

 

sql生成100W条指定位数的随机数的方法(只花费了不足1分钟)(整理)

http://blog.csdn.net/mubingyun/archive/2008/10/21/3115456.aspx

相关文章
|
缓存 Prometheus 监控
使用KubeNurse进行集群网络监控
使用KubeNurse进行集群网络监控
使用KubeNurse进行集群网络监控
|
Linux
Linux主机安装NetFlow采集器并使用Graylog进行网络流量分析
Linux主机安装NetFlow采集器并使用Graylog进行网络流量分析
721 0
Linux主机安装NetFlow采集器并使用Graylog进行网络流量分析
|
11月前
|
Linux 测试技术 网络安全
hfish蜜罐离线部署
hfish蜜罐离线部署
182 0
|
弹性计算 Cloud Native 应用服务中间件
全景剖析阿里云容器网络数据链路(五):Terway ENI-Trunking
本篇文章主要聚焦ACK 在Terway ENI-Trunking模式下,不同SOP场景下的数据链路转发路径。
全景剖析阿里云容器网络数据链路(五):Terway ENI-Trunking
|
弹性计算 编解码 运维
全景剖析阿里云容器网络数据链路(二)—— Terway ENI
本系列联合作者 容器服务 @谢石 近几年,企业基础设施云原生化的趋势越来越强烈,从最开始的IaaS化到现在的微服务化,客户的颗粒度精细化和可观测性的需求更加强烈。容器网络为了满足客户更高性能和更高的密度,也一直在高速的发展和演进中,这必然对客户对云原生网络的可观测性带来了极高的门槛和挑战。为了提高云原生网络的可观测性,同时便于客户和前后线同学增加对业务链路的可读性
771 0
全景剖析阿里云容器网络数据链路(二)—— Terway ENI
|
弹性计算 Cloud Native 应用服务中间件
全景剖析阿里云容器网络数据链路(五)—— Terway ENI-Trunking
本系列联合作者 容器服务 @谢石 近几年,企业基础设施云原生化的趋势越来越强烈,从最开始的IaaS化到现在的微服务化,客户的颗粒度精细化和可观测性的需求更加强烈。容器网络为了满足客户更高性能和更高的密度,也一直在高速的发展和演进中,这必然对客户对云原生网络的可观测性带来了极高的门槛和挑战。为了提高云原生网络的可观测性,同时便于客户和前后线同学增加对业务链路的可读性
787 0
全景剖析阿里云容器网络数据链路(五)—— Terway ENI-Trunking
|
数据采集 运维 监控
本地机器安装Logtail接入到阿里云SLS日志服务
本地机器安装Logtail接入到阿里云SLS日志服务
1177 0
本地机器安装Logtail接入到阿里云SLS日志服务
|
监控 负载均衡 网络协议
云监控-主机监控功能介绍|学习笔记
快速学习云监控-主机监控功能介绍
177 0
云监控-主机监控功能介绍|学习笔记
|
Prometheus 监控 Cloud Native
Prometheus-监控网络设备
Prometheus-监控网络设备
|
机器学习/深度学习 运维 负载均衡
网络智能服务NIS-实例诊断功能介绍
01 背景前言 多年来,我们看到用户使用阿里云网络的方式发生了变化,一方面用户期待使用越来越多的产品可以快速灵活组网;另一方面又迫切希望能降低其基础设施日常运维的复杂性,以便他们能够专注于自己的应用程序和其他业务重点。
282 0