音悦台800多万MV视频抓取

简介:

    闲的蛋疼,抓下音悦台的MV玩玩,昨晚研究到凌晨1点,现把代码分享与此,以作备忘,如果有涉及侵权,请音悦台通知我,我马上删除代码,哈哈!!!尴尬
       

Java代码   收藏代码
  1. //因为我发现音悦台的MV ID都是7位数字  
  2.         int max = 9999999;  
  3.         for(int i=0; i < max; i++) {  
  4.             String videoId = i + "";  
  5.             String html = HttpClientUtils.getHTML("http://www.yinyuetai.com/insite/get-video-info?flex=true&videoId=" + videoId);  
  6.             //System.out.println(html);  
  7.             if(html == null || "".equals(html) || html.indexOf("找不到编号为") >= 0) {  
  8.                 System.out.println("没有id={" + videoId + "}这个MV");  
  9.                 continue;  
  10.             }  
  11.               
  12.           //音悦台VIP专享MV  
  13.             Pattern pattern = Pattern.compile(".+(http://sh.yinyuetai.com/uploads/videos/common/[a-zA-Z0-9]+\\.mp4\\?(?!http).*?&vst=0Y).+");  
  14.             Matcher matcher = pattern.matcher(html);  
  15.             if(matcher.find()) {  
  16.                 String url = matcher.group(1);  
  17.                 System.out.println("id={" + videoId + "}VIP专享MV url:" + url);  
  18.             } else {  
  19.                 //超清MV  
  20.                 pattern = Pattern.compile(".+(http://he.yinyuetai.com/uploads/videos/common/[a-zA-Z0-9]+\\.flv\\?(?!http).*?&vst=0Y).+");  
  21.                 matcher = pattern.matcher(html);  
  22.                 if(matcher.find()) {  
  23.                     String url = matcher.group(1);  
  24.                     System.out.println("id={" + videoId + "}超清MV url:" + url);  
  25.                 } else {  
  26.                     //高清MV  
  27.                     //.+(http://hd.yinyuetai.com/uploads/videos/common/[a-zA-Z0-9]+\\.flv\\?[^?]+&vst=0Y).+  
  28.                     pattern = Pattern.compile(".+(http://hd.yinyuetai.com/uploads/videos/common/[a-zA-Z0-9]+\\.flv\\?(?!http).*?&vst=0Y).+");  
  29.                     matcher = pattern.matcher(html);  
  30.                     if(matcher.find()) {  
  31.                         String url = matcher.group(1);  
  32.                         System.out.println("id={" + videoId + "}高清MV url:" + url);  
  33.                     } else {  
  34.                         //流畅MV  
  35.                         //.+(http://hc.yinyuetai.com/uploads/videos/common/[a-zA-Z0-9]+\\.flv\\?[^?]+&vst=0Y).+  
  36.                         pattern = Pattern.compile(".+(http://hc.yinyuetai.com/uploads/videos/common/[a-zA-Z0-9]+\\.flv\\?(?!http).*?&vst=0Y).+");  
  37.                         matcher = pattern.matcher(html);  
  38.                         if(matcher.find()) {  
  39.                             String url = matcher.group(1);  
  40.                             System.out.println("id={" + videoId + "}流畅MV url:" + url);  
  41.                         } else {  
  42.                             continue;  
  43.                         }  
  44.                     }  
  45.                 }  
  46.             }  
  47.               
  48.         }  

   得到了MV视频的URL后,你可以先把URL全部写到一个txt文件里,然后就写个程序一行一行的读取URL去下载flv文件即可啦,这个大家我想都会吧,就跟下载jpg图片类似的,我就不多啰嗦了!!!效果图如下:

 

转载:http://iamyida.iteye.com/blog/2250181

目录
相关文章
|
2月前
|
XML 数据采集 存储
挖掘网络宝藏:R和XML库助你轻松抓取 www.sohu.com 图片
网络上有无数的图片资源,但是如何从特定的网站中快速地抓取图片呢?本文将介绍一种使用 R 语言和 XML 库的简单方法,让你可以轻松地从 www.sohu.com 网站上下载你感兴趣的图片。本文将涉及以下几个方面: ● 为什么选择 R 语言和 XML 库作为图片爬虫的工具? ● 如何使用 R 语言和 XML 库来访问、解析和提取网页上的图片链接? ● 如何使用代理 IP 技术,参考亿牛云爬虫代理的设置,避免被网站屏蔽或限制? ● 如何实现多线程技术,提高图片爬取的效率和速度? ● 如何将爬取到的图片保存到本地或云端,进行数据分析和可视化?
|
存储 JavaScript 关系型数据库
中国国家统计局发布的行政区划数据-nodejs抓取
由于国家的行政区划每年都有变化,所以经常需要更新最新的数据,这里提供一个nodejs版本mysql数据存储的抓取示例。
中国国家统计局发布的行政区划数据-nodejs抓取
Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月2日上海二手房)将近30*100多条数据并进行房价分析以及预测
Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月2日上海二手房)将近30*100多条数据并进行房价分析以及预测
Crawl:利用bs4和requests爬取了国内顶级某房源平台(2020年7月2日上海二手房)将近30*100多条数据并进行房价分析以及预测
|
测试技术
soufun使用次数统计,搜房网房源自动刷新程序 -- 测试版本,Dev.QQ 1205878060
soufun使用次数统计,搜房网房源自动刷新程序 -- 测试版本,Dev.QQ 1205878060  
886 0
|
PHP Apache
wordpress无法上传超过2M的媒体
问题描述 wordpress不能上传大数据量的音频或视频文件! 解决方案 修改/etc/php.ini文件 upload_max_filesize = 128M post_max_size = 128M ...
1317 0

热门文章

最新文章