使用Python批量抓取单词发音

简介:

备注:今年1月份写的文章,以后准备长期驻扎在这儿,就贴过来了。

        1.12号晚上总算彻底的考完了所有的科目,昨天可以睡一个安稳的懒觉了。从床上爬起来之后,随便从书架上拿了一本书,竟然是《备战大学德语四级考试·词汇篇》,不觉想起当初“战绩辉煌”的德语课。翻开书,看了几个单词后,发现都忘记了该怎么发音,所以想把每个单词的发音放到P3里,等睡不着的时候可以听一听~

        所以,具体需求就是:根据一个文本文件,该文件中提供了一个单词列表,格式为每个单词占一行。需要根据这个列表,从某个网站上把对应单词的发音的mp3文件保存在本地磁盘上,而且mp3文件保存为相应的单词的名称。

         大致就是这些,想想还缺点什么,恩,多线程---典型的多线程应用环境啊。确定一下实现环境,看来Python是首选了。因为快,当然是说开发速度快了~

         该找个网站,从google上搜了搜(最近学校可以用ipv6google了,速度很快,过滤也少),找到一个网站http://www.leo.de/,上面有一个Deutsch–Englisch的图标,当然也有Deutsch –Chinesisch图标,想想欧洲人那种自恃清高的态度,还是果断选了Deutsch-Englisch。随便搜索一个单词,比如“abendessen”,然后会弹出一个列表,点击发音图标的时候,会弹出一个框,框中还有一个推荐网站http://www.dwds.de/。点击之后,感觉风格清新自然简洁。还是输入刚刚那个单词“abendessen”,点击“suche”之后,在浏览器上看到一个URLhttp://www.dwds.de/?qu=abendessen&view=1 view=1区分了是从主页搜索单词还是从搜索单词后弹出的某个页面中搜索的单词两种情况。可以在当前这个页面(http://www.dwds.de/?qu=abendessen&view=1)再输入“abendessen”,点击“suche”后,你会发现URL地址已经改变了,变为:http://www.dwds.de/?qu=abendessen

         再试几个单词后,基本就可以确定每个单词对应的查询页面的URL地址格式为:

http://www.dwds.de/?qu=所查询的单词

接下来就是看下声音地址的组成格式。查看下页面的Html源代码,CTRL+F搜索sound。在刚刚查询“abendessen”的页面中可以找到这样的一个filename: http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/0ddaf706368d33af4d5aca4cebb41f17.mp3。可以基本确信对应于每个单词的mp3文件格式如下:

http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/+单词对应的哈希值.mp3

不知道这里为什么要用哈希值,可以肯定的是不是用来提高检索速度的,因为单词本身就可以作为唯一的键,而且单词的最大长度应该也不会超过一个固定的上限值(比如:40?)。也许使用哈希值是为了防止用程序自动下载发音文件,减少对服务器的冲击吧,我猜。刚看到这个32位的串,我想大家第一反应应该都是猜它是不是单词对应的md5值(比如QQ登录的时候,就对针对密码进行三次md5加密),很不幸的,这个串不是(这个,可以使用Python在交互式模式下做一个简单的验证)。不过这个并不影响下载这个mp3文件,恩,就是先打开页面,然后从页面上找到mp3URL,然后再下载。

         好了,整理一下思路,简单的说,下载一个单词对应的mp3的流程如下:

         Step1:从文件中读取一个单词

         Step2:构造一个单词查询页面的URL,将此URL对应的html源代码保存到content

         Step3:使用正则表达式在content中搜索对应mp3文件的URL

         Step4:读取mp3数据,在本地新建一个文件,把数据保存进去

         Step5:如果没有结束,跳转到Step1

         恩,挺简单的流程。还需要增添的设施就是多线程,测试表明,平均每下载一个单词将近4秒钟,不能在一个线程在访问网络或者保存文件的时候让CPU空闲啊。所以,在运行程序的时候需要传入两个参数,一个就是需要开启的线程的数量,另外一个就是保存单词列表的文件名。不过,等我改天有时间了,实现一个线程池,这样就省事了,把任务扔到池子里就行了。否则在程序中还要考虑加锁解锁这种琐碎的事情,因为保存单词列表的队列是共享资源。这些分析清楚了,差不多就可以写代码了。把代码贴到这儿,仅供参考:

 

 
  1. #!/usr/bin/python 
  2.  
  3. #Author:lichao 
  4.  
  5. #Date:01-13-2012 
  6.  
  7. #Description:Download the .mp3 sound files that correspoding to the words in the given file. 
  8.  
  9. import threading 
  10.  
  11. import time 
  12.  
  13. import fileinput 
  14.  
  15. import re 
  16.  
  17. import urllib2 
  18.  
  19. import sys 
  20.  
  21.   
  22.  
  23. class DownloadWorker(threading.Thread): 
  24.  
  25.          global mutext 
  26.  
  27.          def __init__(self,wordsList,workerIndex): 
  28.  
  29.                    threading.Thread.__init__(self
  30.  
  31.                    self.queue=wordsList 
  32.  
  33.                    self.index=workerIndex 
  34.  
  35.          def run(self): 
  36.  
  37.                    print('worker%d start to work' % (self.index)) 
  38.  
  39.                    mutex.acquire() 
  40.  
  41.                    self.word=self.queue.front() 
  42.  
  43.                    mutex.release() 
  44.  
  45.                    while self.word!="0"
  46.  
  47.                             url = "http://www.dwds.de/?qu="+self.word 
  48.  
  49.                             urlContent = urllib2.urlopen(url).read() 
  50.  
  51.                             urlList = re.findall('http://media.dwds.de/dwds/media/sound/dwdswb_aussprache_dev/.*\.mp3', urlContent) 
  52.  
  53.                             try
  54.  
  55.                                      soundData = urllib2.urlopen(urlList[0]).read() 
  56.  
  57.                                      saveName=self.word+".mp3" 
  58.  
  59.                                      output = open(saveName,'wb'
  60.  
  61.                                      output.write(soundData) 
  62.  
  63.                                      output.close() 
  64.  
  65.                                      print('%s:OK                                 --Post by worker%d' % (self.word,self.index) ) 
  66.  
  67.                             except
  68.  
  69.                                      print('%s:FAILED                                   --Post by worker%d' % (self.word,self.index) ) 
  70.  
  71.                             finally
  72.  
  73.                                      mutex.acquire() 
  74.  
  75.                                      self.word=self.queue.front() 
  76.  
  77.                                      mutex.release() 
  78.  
  79.                    print('worker%d eixt' % self.index) 
  80.  
  81. class WordsList(): 
  82.  
  83.          def __init__(self,filePath): 
  84.  
  85.                    self.t=[] 
  86.  
  87.                    for line in fileinput.input(filePath): 
  88.  
  89.                             if(len(line)>1 and line[len(line)-1]=='\n'): 
  90.  
  91.                                      line=line[0:len(line)-1
  92.  
  93.                                      self.t.append(line) 
  94.  
  95.                             else
  96.  
  97.                                      self.t.append(line) 
  98.  
  99.                    self.t.append('0'
  100.  
  101.          def front(self): 
  102.  
  103.                    if(self.t[0]!='0'): 
  104.  
  105.                             return self.t.pop(0
  106.  
  107.                    else
  108.  
  109.                             return self.t[0
  110.  
  111.                             
  112.  
  113. def main(): 
  114.  
  115.          global mutex 
  116.  
  117.          mutex=threading.Lock() 
  118.  
  119.          workerNumber=int(sys.argv[1]) 
  120.  
  121.          filePath=sys.argv[2
  122.  
  123.          wordsList=WordsList(filePath) 
  124.  
  125.          workerPool=[] 
  126.  
  127.          for i in range(0,workerNumber): 
  128.  
  129.                    worker=DownloadWorker(wordsList,i) 
  130.  
  131.                    workerPool.append(worker) 
  132.  
  133.          for i in range(0,workerNumber): 
  134.  
  135.                    workerPool[i].start() 
  136.  
  137.                    
  138.  
  139. if __name__ == "__main__"
  140.  
  141.          main() 

下面两张截图是运行效果图,其中图1是运行效果图。是的,有些单词的mp3下载过程中出错了,这是由于某些单词的发音太简单了,这些单词级别估计是1级,估计是网站的设计者觉得这种简单的单词没有必要制作一个mp3文件放在上面。一般来说,稍难一点的单词的发音都能下载到的。图2是下载后的截图,以后可以用来催眠了。

 

1:下载器运行效果

 



本文转自hipercomer 51CTO博客,原文链接:http://blog.51cto.com/hipercomer/789423

相关文章
|
1月前
|
存储 缓存 Python
如何使用Python抓取PDF文件并自动下载到本地
如何使用Python抓取PDF文件并自动下载到本地
31 0
|
2月前
|
数据采集 前端开发 JavaScript
利用 Python 抓取数据探索汽车市场趋势
利用 Python 抓取数据探索汽车市场趋势
|
2月前
|
数据采集 数据可视化 数据挖掘
Python爬虫实战:抓取网站数据并生成报表
本文将介绍如何使用Python编写简单而高效的网络爬虫,从指定的网站上抓取数据,并利用数据分析库生成可视化报表。通过学习本文内容,读者将能够掌握基本的爬虫技术和数据处理方法,为日后开发更复杂的数据采集与分析工具打下坚实基础。
|
1月前
|
存储 自然语言处理 数据挖掘
Python:计算字符串中每个单词出现的次数
Python:计算字符串中每个单词出现的次数
|
2月前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
69 2
Python爬虫案例:抓取猫眼电影排行榜
|
7天前
|
开发者 索引 Python
实践:如何使用python在网页的表格里抓取信息
实践:如何使用python在网页的表格里抓取信息
|
1月前
|
Python
如何使用Python的Requests库进行网络请求和抓取网页数据?
如何使用Python的Requests库进行网络请求和抓取网页数据?
12 0
|
1月前
|
Python
python实现字符串查找(如:在字符串中查找某个单词)。
python实现字符串查找(如:在字符串中查找某个单词)。
29 0
|
2月前
|
存储 Python
python数学基础——单词统计
python数学基础——单词统计
25 0
|
3月前
|
Python Java Go
Python每日一练(20230427) 三数之和、编辑距离、翻转字符串单词
Python每日一练(20230427) 三数之和、编辑距离、翻转字符串单词
25 0
Python每日一练(20230427) 三数之和、编辑距离、翻转字符串单词