我分析了 6.5W 字的歌词,看到了这样的周杰伦

简介:

前一段时间分析民谣歌词的那边文章特别火,刚好在研究使用python处理数据,就也想弄个类似东西练练手。于是乎,拉上自己亲妹妹 @张小黑 就开始分工。

  一、准备歌词素材

歌词选择:杰伦至今的所有专辑(从最开始的<JAY>到最新的<周杰伦的床边故事>)

由于爬虫木有学会,就只能手动收集歌词。经过一系列的 google、baidu,终于找到别人整理好的歌词全集。ok,就这样歌词文件搞定了,一共也没多大,也就207K(想想周董这么多年唱的歌词大半都在这207K的txt文件里就不免有些感慨)。

我分析了 6.5W 字的歌词,看到了这样的周杰伦

  二、对歌词文件完成分词

这是最难的部分,产品汪只会跟程序猿们相爱相杀,哪会写代码呀!!!

我分析了 6.5W 字的歌词,看到了这样的周杰伦

没办法,硬着头皮也要写。网上goolge各种关键字,看博客,花了半天的时间,连蒙带猜,勉勉强强看懂了网上的代码示例,比着葫芦画瓢写了一点点写。

我分析了 6.5W 字的歌词,看到了这样的周杰伦

千难万险,终于写完调通,最终主要的部分一共也就12行,没有任何注释(简直乞丐版代码,根本看不出来哪里sexy ~~~~(>_<)~~~~)

我分析了 6.5W 字的歌词,看到了这样的周杰伦

  三、对分词的结果进行分析

好,我们终于到了正文,以上都是废话,下边才是重要结论。(如果以这种方式写邮件一定会被老板打死 (^∇^*) )

结论一:杰伦最喜欢的唱的主题 --- 情歌 (我自己也知道这是废话 O(∩_∩)O)

我分析了 6.5W 字的歌词,看到了这样的周杰伦

拉了下出现频率 top20 的词语,满满的都是文艺、伤感、爱情 :

我们 / 怎么 / 没有 / 微笑 / 离开 / 爱情 / 回忆 / 不要 / 开始 / 如果 / 怎么 / 开始

我擦,感觉随机排列组合都能成歌词,方文山以后是不是就可以下岗了 (^∇^*)

结论二:杰伦喜欢妈妈胜过爸爸,喜欢外婆胜过爷爷以及外公(歌词中没有出现奶奶)

我分析了 6.5W 字的歌词,看到了这样的周杰伦

大家应该都听过<听妈妈的话>。

杰伦专门为外婆写了一首歌<外婆>,其中也就1句歌词提到了外公。

至于爷爷,杰伦也有那首<爷爷泡的茶>

结论三:杰伦喜欢黑色、白色胜过其他颜色

我分析了 6.5W 字的歌词,看到了这样的周杰伦

很符合周董的形象,歌词里高大上的黑色&白色力压其他颜色。看到黑白两色频率这么高,我第一时间想到的是<以父之名>,感觉很符合那个气质。还有就是青色出现了6次,大概率是因为<青花瓷>吧。

结论四:杰伦最喜欢的语气词是 oh~

我分析了 6.5W 字的歌词,看到了这样的周杰伦

毋庸置疑,杰伦最喜欢 oh~ ,排除大小写的因素,[oh] 出现的频率甚至超过 [我们] 成为出现词频最高的词汇。此外杰伦经典的 "哎呦不错哦~" 中的 [哎呦] 也名列前茅,看来杰伦真的很喜欢讲这句话。

总结:只是从歌词来看,大概杰伦就是一个穿着黑白帽衫,表面上酷酷的,但是骨子里满是深情、文艺, 只喜欢喝爷爷泡的茶,听妈妈的话,爱自己外婆的 ,嘴里时不时地冒出一句‘哎呦,不错哦’ 的 五好青年 ^_^

注:以上内容纯属胡说八道,如有雷同,纯属巧合。

另,头图不是 python 生成,是使用一个国外的网站(wordart)生成的。文章中使用的分词代码、歌词文本、头图已通过有道云笔记分享(文章末尾有链接),内容如下:

我分析了 6.5W 字的歌词,看到了这样的周杰伦           

有道云笔记链接:http://t.cn/RaICFIV 




====================================分割线================================

本文作者:AI研习社
本文转自雷锋网禁止二次转载, 原文链接
目录
相关文章
|
3月前
|
Python
ChatGPT 调教指南:从 PDF 提取标题并保存
ChatGPT 调教指南:从 PDF 提取标题并保存
|
4月前
|
索引
在微信小游戏制作工具中实现文字逐个出现的打字机效果
在微信小游戏制作工具中实现文字逐个出现的打字机效果
32 0
|
9月前
|
数据采集 自然语言处理 小程序
【每周一坑】统计英文小说词频
然而,只有我们依旧无趣地在此刻发干货文,提醒着你有没有写新的代码?有没有了解新的语法?硬生生给你五彩斑斓的周末生活蒙上一层阴影。每每想到这,我就觉得,这档子事儿还真是……
|
5月前
|
前端开发 JavaScript
标题字闪光效果
标题字闪光效果
21 0
|
9月前
|
存储 Java 索引
1760字,让你拿捏 [‘列表‘]
1760字,让你拿捏 [‘列表‘]
|
10月前
|
人工智能 自然语言处理 知识图谱
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下
117 0
|
11月前
|
小程序 索引
如何实现文字逐个出现的打字机效果
今天分享一下如何在微信小游戏制作工具中实现文字逐个出现的打字机效果,这个小功能可以用于游戏中的文字对白的展示,如果你要做的是一个文字类游戏的话,那么肯定用的上。
91 0
|
人工智能 自然语言处理 搜索推荐
写歌词的技巧和方法,写歌词的基本要求,歌词创作基本知识及注意事项,创作歌词的要点
我们平常在歌词创作的时候,会有意去注重一些基本原则,也会用心去研究:写歌词的技巧和方法,写歌词的基本要求,歌词创作基本知识及注意事项,创作歌词的要点。近年来,AI人工智能技术终于开始进入音乐歌词创作领域。AI音乐创作技术的出现是科技史上又一次巨大的进步,让音乐人更加轻松地创作出更好的音乐作品。在人工智能创作歌词领域,AI机器人小芝(aixiegeci)是一个快速创作原创歌词的软件应用。它甚至不需要你懂太多的音乐创作歌词知识,一个普通人也可以通过的操作就可以快速完成一首歌词作品的创作。
199 0
写歌词的技巧和方法,写歌词的基本要求,歌词创作基本知识及注意事项,创作歌词的要点
140字的奥秘【转】
假期重新把之前在新浪博客里面的文字梳理了下,搬到这里。
139 0
如何用C#显示竖排文字?
看这个题目,应该觉的这个问题不难,刚开始我也是这么想,可是目前我手头上的参考资料上没有一个介绍竖直显示文字的,上网查资料只发现一个有用的,可是实现起来比较麻烦,需要进行坐标转换,旋转,还得平移,没办法,为了实现下图Y方向坐标的标注,只好这样了
1153 0