大快DKH大数据网络爬虫安装教程(详细图文步骤)

本文涉及的产品
云数据库 RDS MySQL Serverless,0.5-2RCU 50GB
简介: 爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeperrediselasticsearchmysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

6f79095854f11eab6a39e52024972cdc6c4bcab9 

3e9bf77d5cb8350fd7e834b04f6d0109052c4246 

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

aaabec84ced05629269579753de764bb829674ef 

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

11f2963c9334c43a85a47770017cdd629b028052 

Redis相关配置看如下界面:

dd8ddd213e98737056f2906ae561b382d61e6f4c 

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes(这下面有一个没有改好的直接替换)

0a30ff9bf9199b07e8cdfc8f2d767231ffa726fb 

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

b1fe576c499a3b32503232a40b728f4a854ba245 

 

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

df12f5d0585492c77f05f4877db76433569cbc09 

使用cd  crawler  命令进入  crawler 文件夹下

83233dd08f5c7e25e465dce046bbeaac0d5d07df 

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

dabcf897b4b7765b5fc2f7fb7a37ec4fab7c28cd 

5、分发爬虫文件

1324055b03081e974d086f6922af5d7a9ab0be85 

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

1758be6f486781c70c7937e3c69e05745fd685d6 

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

 330cd92f505ffbe4a8e2c18ef2355835e5907519

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

 747993b51002d4e763783b8550607fd3a96ee214

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

1f21d1223281df31dab865f8a923afe343c7bc9e 

 

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

 

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

 

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
3月前
时标网络图绘制步骤
时标网络图绘制步骤
时标网络图绘制步骤
|
3月前
双代号网络图绘制步骤
双代号网络图绘制步骤
双代号网络图绘制步骤
|
3月前
|
缓存 iOS开发
IOS网络编程:使用 URLSession 实现网络请求的步骤是什么?
IOS网络编程:使用 URLSession 实现网络请求的步骤是什么?
29 1
|
7月前
|
搜索推荐 UED
Web Accessibility(Web A11y):构建包容性网络的关键步骤
Web无障碍性(Web Accessibility,简称Web A11y)是一项旨在确保网站和应用程序能够让所有人,包括残障人士,都能轻松访问和使用的关键实践。本博客将深入探讨Web无障碍性的概念、重要性以及如何在您的项目中实施无障碍设计的关键步骤。
47 0
|
7月前
|
监控 安全 网络安全
两层楼的公司如何开始搭建网络的步骤详解?
两层楼的公司如何开始搭建网络的步骤详解?
|
8月前
|
网络协议 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(二)
|
1月前
|
数据采集 存储 JSON
解析Perl爬虫代码:使用WWW::Mechanize::PhantomJS库爬取stackoverflow.com的详细步骤
在这篇文章中,我们将探讨如何使用Perl语言和WWW::Mechanize::PhantomJS库来爬取网站数据。我们的目标是爬取stackoverflow.com的内容,同时使用爬虫代理来和多线程技术以提高爬取效率,并将数据存储到本地。
|
2月前
|
分布式计算 DataWorks NoSQL
MaxCompute资源问题之网络不通如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
32 2
|
8月前
|
数据可视化 大数据 数据挖掘
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(三)
|
8月前
|
大数据 数据挖掘 Go
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控(一)
文献丨多组学大数据构建小麦穗发育转录调控网络,TRN+GWAS挖掘关键转录调控