Scrapy框架-通过scrapy_splash解析动态渲染的数据

简介: 前言对于那些通过JS来渲染数据的网站,我们要解析出它的html来才能取到想要的数据,通常有两种解决办法:1、通过selenim调用浏览器(如chrome firefox等)来爬取,将解析的任务交给浏览器。

前言

对于那些通过JS来渲染数据的网站,我们要解析出它的html来才能取到想要的数据,通常有两种解决办法:
1、通过selenim调用浏览器(如chrome firefox等)来爬取,将解析的任务交给浏览器。
2、通过splash来解析数据,scrapy可以直接从splash的【空间】中拿到渲染后的数据。

这里介绍scrapy_splash

有个坑

根据它的文档,我们可以知道它依赖于Docker服务,所以你想要使用scrapy_splash就需要先安装docker并跑起来。再根据它的文档进行安装、启动等操作(其实这里有个坑):

$ docker run -p 8050:8050 scrapinghub/splash

项目启动的时候,如果通过这个命令启动,他其实默认给你启动的是http://127.0.0.1:8050/,你可以用浏览器打开来看,看到这个页面就算正常启动了


splash正常启动页面-通过浏览器访问

所以,它的官方示例代码下一句代码(在settings.py中配置):

 SPLASH_URL = 'http://192.168.59.103:8050'

你在使用的时候如果按照这句来写,是无法连接splash的,必须写成:

"SPLASH_URL": 'http://127.0.0.1:8050'

其他的配置可以按照文档来写。

代码中的使用

如果使用动态settings配置(避免影响其他爬虫)的话,可以在具体的spider文件中新增:

custom_settings = {
    """ 动态settings配置 """
    "SPLASH_URL": 'http://127.0.0.1:8050',
    "DOWNLOADER_MIDDLEWARES": {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
    },
    "SPIDER_MIDDLEWARES": {
    'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
    },
    "DUPEFILTER_CLASS": 'scrapy_splash.SplashAwareDupeFilter',
    "HTTPCACHE_STORAGE": 'scrapy_splash.SplashAwareFSCacheStorage',
}
name = 'tsinghua'
allowed_domains = ['tv.tsinghua.edu.cn']
start_urls = ['http://tv.tsinghua.edu.cn/publish/video/index.html']

然后再使用的时候,需要将哪个动态页面解析,就要用SplashRequest来发起请求,而不是之前的scrapy.Request来发起,其他的如callback、meta、url都是一样的(如果不一样请以文档为准)下面我放出清华大学视频站的解析代码:

def parse(self, response):
    """
    获取导航链接, 自动爬取所有导航url, 交给parseList方法
    为了获取js渲染的翻页, 这里用scrapy-splash的SplashRequest来构造请求, 以获得js渲染后的的html数据
     """
    totalNav = response.css('#nav li')
    for i in totalNav:
        urls = i.css('a::attr("href")').extract_first()
        yield SplashRequest(url=parse.urljoin(response.url, urls), args={"wait": 1}, callback=self.parseList)

def parseList(self, response):
    """ 在列表页获取详情页的url以及视频封面, 传递给parseDetails方法, 最终获取视频和封面等信息 """
    totalUrl = response.css('.picnewslist2.clearfix .clearfix ')
    for i in totalUrl:
        urls = parse.urljoin(response.url, i.css('.contentwraper figcaption a::attr("href")').extract_first())
        imagesUrl = parse.urljoin(response.url, i.css('.picwraper img::attr("src")').extract_first())
        yield Request(url=urls, meta={"imagesUrl": imagesUrl}, callback=self.parseDetails)

    """ 
    翻页操作 
        借助scrapy-splash来解析js渲染的html
        取出"上一页, 下一页"的页码, 通过re正则来匹配其中的数值
        对url进行判断, 是否是第一页。根据url构造不同的下一页nexPageUrl
        最后借助scrapy-splash继续解析下一页的html
    """
    nextPageList = response.css('a.p::attr("onclick")').extract()
    if len(nextPageList) >= 2:
        matchRule = re.search('\d+', nextPageList[1])
        if matchRule:
            nextPageNumber = matchRule.group(0)
            thisPageRule = re.search('index_\d+', response.url)
            if thisPageRule:
                thisPageNumber = thisPageRule.group(0).replace('index_', '')
                nexPageUrl = response.url.replace(thisPageNumber, nextPageNumber)
                yield SplashRequest(url=nexPageUrl, callback=self.parseList)
            else:
                nexPageUrlJoin = 'index_' + nextPageNumber
                nexPageUrl = response.url.replace('index', nexPageUrlJoin)
                yield SplashRequest(url=nexPageUrl, callback=self.parseList)

def parseDetails(self, response):
    """ 抽取视频详情, 交给对应item进行序列化 """
    imagesUrl =response.meta['imagesUrl']
    loaders = tsinghuaVedioItemLoader(item=tsinghuaVedioItem(), response=response)
    loaders.add_css("title", "article.article h1::text")  # 标题
    loaders.add_css("articleContent", '#play_mobile source::attr("src")')  # 内容
    loaders.add_value("imagesUrl", imagesUrl)  # 视频封面地址
    loaders.add_value("articleType", 2)  # 类型:视频
    loaders.add_value("addtime", datetime.now())
    loaders.add_value("schoolName", "清华大学")
    loaders.add_value("schoolID", 6)
    items = loaders.load_item()
    yield items
目录
相关文章
|
1月前
|
安全 Java 数据库连接
jdbc解析excel文件,批量插入数据至库中
jdbc解析excel文件,批量插入数据至库中
21 0
|
1月前
|
XML 前端开发 数据格式
请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
【2月更文挑战第22天】【2月更文挑战第67篇】请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
|
1天前
|
存储 NoSQL 安全
Redis入门到通关之数据结构解析-动态字符串SDS
Redis入门到通关之数据结构解析-动态字符串SDS
|
13天前
|
SQL API 数据库
Python中的SQLAlchemy框架:深度解析与实战应用
【4月更文挑战第13天】在Python的众多ORM(对象关系映射)框架中,SQLAlchemy以其功能强大、灵活性和易扩展性脱颖而出,成为许多开发者首选的数据库操作工具。本文将深入探讨SQLAlchemy的核心概念、功能特点以及实战应用,帮助读者更好地理解和使用这一框架。
|
14天前
|
存储 JSON JavaScript
「Python系列」Python JSON数据解析
在Python中解析JSON数据通常使用`json`模块。`json`模块提供了将JSON格式的数据转换为Python对象(如列表、字典等)以及将Python对象转换为JSON格式的数据的方法。
31 0
|
15天前
|
机器学习/深度学习 分布式计算 BI
Flink实时流处理框架原理与应用:面试经验与必备知识点解析
【4月更文挑战第9天】本文详尽探讨了Flink实时流处理框架的原理,包括运行时架构、数据流模型、状态管理和容错机制、资源调度与优化以及与外部系统的集成。此外,还介绍了Flink在实时数据管道、分析、数仓与BI、机器学习等领域的应用实践。同时,文章提供了面试经验与常见问题解析,如Flink与其他系统的对比、实际项目挑战及解决方案,并展望了Flink的未来发展趋势。附带Java DataStream API代码样例,为学习和面试准备提供了实用素材。
37 0
|
1月前
|
存储 编解码 算法
【解码与渲染 异常情况】深入解析视频中绿色竖线现象(二)
【解码与渲染 异常情况】深入解析视频中绿色竖线现象
38 1
|
1月前
|
安全 Java 数据库连接
jdbc实现批量给多个表中更新数据(解析Excel表数据插入到数据库中)
jdbc实现批量给多个表中更新数据(解析Excel表数据插入到数据库中)
154 0
|
1月前
|
存储 JSON NoSQL
Redis与Python的完美结合:实现高效数据交互和应用场景全解析
Redis与Python的完美结合:实现高效数据交互和应用场景全解析
115 0
|
1月前
|
物联网 调度 开发者
构建高效Python Web应用:异步编程与Tornado框架解析
【2月更文挑战第27天】 在处理高并发的Web应用场景时,传统的同步阻塞模型往往难以满足性能需求。本文将深入探讨Python世界中的异步编程概念,并结合Tornado这一轻量级、非阻塞式Web服务器及框架,展示如何构建高性能的Web应用。通过实例驱动的方法论,我们将剖析Tornado的核心组件,包括其IOLoop、异步HTTP客户端和服务器端处理机制,以及与协程集成的细节。文章旨在为开发者提供一套实践指南,帮助他们利用Python实现快速响应和资源高效的Web服务。
31 2

推荐镜像

更多