【更新】爬取姓名大全的名字-阿里云开发者社区

【更新】爬取姓名大全的名字

2017-11-12 1550

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

接上文，可以不用一个网址一个网址的输入了，能抓取页面

 
          http:
          /
          /
          www.yw11.com
          /
          namelist.php

上列出的所有名字大全，不必再像上一个程序一样一个网址一个网址的输入了。嘿嘿。

 
    
      
        
       
          #coding=utf-8
         
 
          import 
          urllib2 
         
 
          import 
          re 
         
 
          from 
          bs4 
          import 
          BeautifulSoup 
         
 
          import 
          sys 
         
 
          reload
          (sys)   
         
 
          sys.setdefaultencoding(
          'utf-8'
          )  
         
 
          def 
          getHtml(url): 
         
 
             
          page
          =
          urllib2.urlopen(url) 
         
 
             
          html
          =
          page.read() 
         
 
             
          return 
          html 
         
 
          def 
          getAllUrl(url): 
         
 
              
          html
          =
          getHtml(url) 
         
 
              
          soup
          =
          BeautifulSoup(html,
          'html.parser'
          ) 
         
 
              
          ul
          =
          soup.find_all(
          'ul'
          ,attrs
          =
          {
          'class'
          :
          'e3'
          })[
          0
          ] 
         
 
              
          a
          =
          ul.find_all(
          'a'
          ) 
         
 
              
          # for i in a: 
         
 
              
          #  urls=i['href'] 
         
 
              
          #  print urls 
         
 
              
          # print "一共有"+str(len(a)) 
         
 
              
          return 
          a 
         
 
          url
          =
          'http://www.yw11.com/namelist.php' 
         
 
          user_agent
          =
          'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_4) AppleWebKit/600.7.12 (KHTML, like Gecko) Version/8.0.7 Safari/600.7.12' 
         
 
          headers
          =
          {
          "User-Agent"
          :user_agent} 
         
 
          urls
          =
          getAllUrl(url) 
         
 
          f
          =
          open
          (
          'name.txt'
          ,
          'a'
          ) 
         
 
          for 
          index 
          in 
          range
          (
          len
          (urls)): 
         
 
              
          lianjie
          =
          urls[index][
          'href'
          ] 
         
 
              
          mingzi
          =
          urls[index].text 
         
 
              
          print 
          "正在抓取姓"
          +
          mingzi 
          +
          "的名字......" 
         
 
              
          request
          =
          urllib2.Request(lianjie,headers
          =
          headers) 
         
 
              
          html
          =
          getHtml(request) 
         
 
              
          soup
          =
          BeautifulSoup(html,
          'html.parser'
          ) 
         
 
              
          divs
          =
          soup.find_all(
          'div'
          ,attrs
          =
          {
          "class"
          :
          "listbox1_text"
          })[
          0
          ] 
         
 
              
          ul
          =
          divs.find_all(
          'ul'
          )[
          0
          ] 
         
 
              
          lis
          =
          ul.find_all(
          'li'
          ) 
         
 
              
          for 
          index 
          in 
          range
          (
          len
          (lis)): 
         
 
                  
          name
          =
          lis[index].text.lstrip()
          #左对齐 
         
 
                  
          f.write(name) 
         
 
                  
          f.write(
          '\r\n'
          ) 
         
 
              
          print 
          "抓取了"
          +
          （
          str
          (index)
          +
          1
          ）
          +
          "个"
          +
          mingzi
          +
          "名字" 
         

          f.close()
         
 
          f
          =
          open
          (
          'name.txt'
          ,
          'r'
          ) 
         
 
          lines
          =
          f.readlines() 
         
 
          print 
          "当前一共有"
          +
          str
          (
          len
          (lines)) 
         

          f.close()
         
 
      

     
   

本文转自努力的C 51CTO博客，原文链接:http://blog.51cto.com/fulin0532/1750113

【更新】爬取姓名大全的名字

热门文章

最新文章

相关电子书