基于Python网易云音乐歌词爬取-阿里云开发者社区

基于Python网易云音乐歌词爬取

2018-01-07 2512

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 网易云音乐前几天小编给大家分享了数据可视化分析，在文尾提及了网易云音乐歌词爬取，今天小编给大家分享网易云音乐歌词爬取方法。本文的总体思路如下：找到正确的URL，获取源码；利用bs4解析源码，获取歌曲名和歌曲ID；调用网易云歌曲API，获取歌词；将歌词写入文件，并存入本地。

img_56ebe8358b3794f9523f337b168e7c19.jpe

网易云音乐

前几天小编给大家分享了数据可视化分析，在文尾提及了网易云音乐歌词爬取，今天小编给大家分享网易云音乐歌词爬取方法。
本文的总体思路如下：
找到正确的URL，获取源码；
利用bs4解析源码，获取歌曲名和歌曲ID；
调用网易云歌曲API，获取歌词；
将歌词写入文件，并存入本地。
本文的目的是获取网易云音乐的歌词，并将歌词存入到本地文件。整体的效果图如下所示：

img_efaf6615d5651b78ab9cb83c4282b11b.jpe

赵雷的歌曲

本文以民谣歌神赵雷为数据采集对象，专门采集他的歌曲歌词，其他歌手的歌词采集方式可以类推，下图展示的是《成都》歌词。

img_28803c1cca2b4ed604575420b51e8277.jpe

赵雷歌曲---《成都》

一般来说，网页上显示的URL就可以写在程序中，运行程序之后就可以采集到我们想要的网页源码。But在网易云音乐网站中，这条路行不通，因为网页中的URL是个假URL，真实的URL中是没有#号的。废话不多说，直接上代码。

img_9618c365fae915690f801afdfe2d72ad.jpe

获取网页源码

本文利用requests、bs4、json和re模块来采集网易云音乐歌词，记得在程序中添加headers和反盗链referer以模拟浏览器，防止被网站拒绝访问。这里的get_html方法专门用于获取源码，通常我们也要做异常处理，未雨绸缪。
获取到网页源码之后，分析源码，发现歌曲的名字和ID藏的很深，纵里寻她千百度，发现她在源码的294行，藏在<ul class="f-hide">标签下，如下图所示：

img_cf9633c4f61d0262278bf230e7968796.jpe

歌曲名和ID存在的位置

接下来我们利用美丽的汤来获取目标信息，直接上代码，如下图：

img_0f1f6fcfee831af5ffca8dd583b76ba4.jpe

获取歌曲名和ID

此处要注意获取ID的时候需要对link进行切片处理，得到的数字便是歌曲的ID；另外，歌曲名是通过get_text()方法获取到的，最后利用zip函数将歌曲名和ID一一对应并进行返回。
得到ID之后便可以进入到内页获取歌词了，但是URL还是不给力，如下图：

img_5ae2dd72dc382d3a58a30c3be9e895ae.jpe

歌词的URL

虽然我们可以明白的看到网页上的白纸黑字呈现的歌词信息，但是我们在该URL下却无法获取到歌词信息。小编通过抓包，找到了歌词的URL，发现其是POST请求还有一大堆看不懂的data，总之这个URL是不能为我们效力。那该点解呢？
莫慌，小编找到了网易云音乐的API，只要把歌曲的ID放在API链接上便可以获取到歌词了，代码如下：

img_918af7bc3e12dacd5ba6f5cae750f6ba.jpe

调用网易云API并解析歌词

在API中歌词信息是以json格式加载的，所以需要利用json将其进行序列化解析出来，并配合正则表达式进行清洗歌词，如果不用正则表达式进行清洗的话，得到原始的数据如下所示（此处以赵雷的歌曲《成都》为例）：

img_ffdbe39a0640a8c2ead1c18d3a1b0aaa.jpe

原始数据

很明显歌词前面有歌词呈现的时间，对于我们来说其属于杂质信息，因此需要利用正则表达式进行匹配。诚然，正则表达式并不是唯一的方法，小伙伴们也可以采取切片的方式或者其他方法进行数据清洗，在此就不赘述了。
得到歌词之后便将其写入到文件中去，并存入到本地文件中，代码如下：

img_ba8422c8b3e440222080850175f774ae.jpe

写入文件和程序主体部分

现在只要我们运行程序，输入歌手的ID之后，程序将自动把该歌手的所唱歌曲的歌词抓取下来，并存到本地中。如本例中赵雷的ID是6731，输入数字6731之后，赵雷的歌词将会被抓取到，如下图所示：

img_c5d34e4932acf93875b3213d7282c118.jpe

程序运行结果

之后我们就可以在脚本程序的同一目录下找到生成的歌词文本，歌词就被顺利的爬取下来了。
相信大家对网易云歌词爬取已经有了一定的认识了，不过easier said than down，小编建议大家动手亲自敲一下代码，在实践中你会学的更快，学的更多的。
这篇文章教会大家如何采集网易云歌词，那网易云歌曲如何采集呢？且听小编下回分解~~~
为了给大家创建一个良好的Python学习环境，小编为大家创建了一个Python学习交流扣扣群，181125776，进群的验证码是：小王子，欢迎大家的加入~~
欢迎拍砖， ^_祝大家周末愉快 ^_

基于Python网易云音乐歌词爬取

热门文章

最新文章

相关课程

相关电子书

相关实验场景