文本挖掘林夕、黄伟文的43万字歌词,他们到底在唱些什么?

  1. 云栖社区>
  2. 大数据文摘>
  3. 博客>
  4. 正文

文本挖掘林夕、黄伟文的43万字歌词,他们到底在唱些什么?

小旋风柴进 2017-05-19 14:13:00 浏览2044
展开阅读全文


0?wx_fmt=gif

在我十几年的听歌生涯里,熟悉的歌曲可以说有80%以上的作词,都是出自香港两大金牌词人——林夕和黄伟文之手,粉丝界也出了不少文章从二人的韵脚使用、意识形态、选材议题尤其是爱情观等角度做分析,甚至网络上还有流传"林夕引进门,皈依黄伟文"的说法。作为他们的迷妹,并且最近恰好在看一些关于文本挖掘的文章,忍不住从文本挖掘的角度对他们的歌词做了一个颇粗浅的分析。

首先我通过Python爬虫在虾米音乐上抓取了所有他们的歌词文本,对比了虾米、网易云和QQ三大音乐门户,虾米上收录的比较全,但是抓取下来的数据也不能保证囊括了两人出道来所有的作品,所以呢结果仅作参考。

0?wx_fmt=gif

对抓取结果进行去重和去空文本后,约43万字,其中夕爷跟歪闷字数比例7:1左右,从文本歌曲数来看,夕爷跟歪闷大约一个8:1的比例,看来歪闷单曲平均字数更丰富(话唠)?夕爷年均产量63首,歪闷年












网友评论

登录后评论
0/500
评论
小旋风柴进
+ 关注
所属团队号: 大数据文摘