我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

我分析了42万字的歌词,为了搞清楚民谣歌手们在唱些什么

小旋风柴进 2017-05-17 18:09:58 浏览1330
展开阅读全文

听了这么多年民谣,我有一种感觉,就是很多歌都似曾相识,但是仔细一想,又哪一首都想不起来,为了搞清楚这群流浪在祖国大地的现代游吟诗人们都在唱些什么,我做了一些数据分析的工作。

我选取了大约30个覆盖从程序员,朋克,基佬到女权主义者,中国大妈,穆斯林的能够覆盖所有人群的民谣歌手和乐队,包括李志,夭十三,赵雷,宋冬野,周云蓬,逃跑计划等等,为了设立参照,我还取了一些其他风格的乐队,比如老一些的汪峰,窦唯,朴树和新一些的低苦艾,谢天笑,反光镜,草东等等。

首先写了一个爬虫,它可以根据歌手或乐队的名字来自动抓取这个歌手的所有歌,为了保证平衡,我最多只抓取前50首歌,老实说,大多数歌手被人熟知的歌并不会超过这个数字。

0?wx_fmt=gif

这样,我得到了小一百个装满歌词的文件,鼠标滑过就能感觉到从里面溢出来的文艺气息,我感觉一阵忧郁袭来,为了写接下来的代码,我吹掉了一

网友评论

登录后评论
0/500
评论
小旋风柴进
+ 关注
所属团队号: 大数据文摘