香港四大词人

1,847 阅读4分钟

信息在生活中的作用越来越大。获取信息,除了常规的看书看文章看网页,也能爬虫获取更加底层的信息;不仅如此,信息多了,展示方式也更加重要--即数据可视化。所以就想结合爬虫获取信息,并加信息可视化出来。刚好那段时间一直在听林夕的歌,就想着能否用数据分析歌词。选取了4位香港词人,他们是林夕,黄伟文,周耀辉和黄霑。香港是有三大词人只说,是林夕,黄伟文,周耀辉。黄霑相当于他们的前辈,我把他们和在一起分析,称为香港四大词人数据分析。

出名作品

可能我们对林夕最为熟悉。这里列下他们各自一篇词,先熟悉一下词人。比如:林夕写给杨千嬅的《再见二丁目》,黄伟文写给卢巧音的《垃圾》,周耀辉写给陈奕迅的《今天只做一件事》和黄霑写给许冠杰的《沧海一声笑》。

分析方法

  1. 数据爬取的是网易云音乐上的歌曲,用的爬虫框架是spider163
  2. 数据的存储和分析使用的是本地mysql
  3. 歌词的切分使用分词器node结巴
  4. 歌词情感分析使用sentiment
  5. 数据可视化是我自建本地node服务,用antV处理和展示数据

词云及情感分析

由于获取的是网易云音乐歌单上歌曲,造成样本数量有所不同,其中林夕1190首,黄伟文445首,周耀辉162首,黄霑138首

  • 林夕

linxiciyun

看出林夕前10个关键词为:没有、快乐、一个、需要、难道、拥抱、没法、情人、其实、忘掉

  • 黄伟文

huangweiwenciyun

看出黄伟文前10个关键词为:没有、其实、喜欢、恋爱、仍然、快乐、不要、情人、分手、一个

  • 周耀辉

zhouyaohuiciyun

看出周耀辉前10个关键词为:几多、快乐、相信、美丽、世界、歌歌、永远、忘记、感觉、今天

  • 黄霑

huangzhanciyun

看出周耀辉前10个关键词为:随人、茫茫、美梦、崎岖、无谓、几多、风霜、心中、依稀、风雨

对词云进行情感分析:

ciyunqinggan

样本量不同,数据大小不比较;但是从方向上,看出林夕和黄伟文的词更加消极;而周耀辉和黄霑则积极向上很多。

词人喜欢活在哪一天?

cirenday

看出都是「今天」出现最多次,林夕和黄伟文相对比较喜欢「明天」,而黄霑则喜欢「昨天」

词人喜欢哪个季节?

cirenseason

喜欢的季节都是「春>秋>夏>冬」,毕竟春天人都多愁善感些。

林夕

四大词人数据分析完成。接下来详细分析林夕的词。

创造多少首词?

linxitime

  • 林夕从1985年开始写词
  • 最高的是2000年,那一年共写了216首,平均3天写2首词
  • 1995年至2003年连续九年获得叱咤乐坛填词人大奖,同时也是写词的高峰期
top20歌手

linxitop20

林夕与众多歌手都合作过,其中与杨千嬅和古巨基合作的最多。林夕不仅合作的歌手多,他还非常擅长因人写词,不同性格的歌手,林夕会写出不同的词,且看以下分析。

轻与重

linxici1

以上这张图是林夕写给张国荣和陈奕迅的词。张国荣的词频是:妄想、需要、寂寞、忘掉。张国荣是比较潇洒的一个人,唱歌有个特点是「举重若轻」。他的歌听起来轻飘飘,不像陈奕迅那么感情直抒。所以林夕给张国荣的词就是妄想、寂寞这种词,我总结其特点就是「轻」。相比,陈奕迅的歌给人的感觉就很「重」。陈奕迅的词频是:拥抱、没有、何必、其实。林夕给陈奕迅的歌词会把感情深处表达出来,平常不敢表达的感情,唱出来吧。

远与近

linxici2

这张是王菲与杨千嬅的词频。王菲给人的感觉就是高冷。她的歌唱着就觉得这个人很远,或者说空灵的感觉。可以看到词频是:情书、没有、感情、快乐。情书是一种物体,物体相对于人来说,就有比较「远」的感觉。与之相反的是杨千嬅的词频:情人、女友、需要。主要词汇都是指向人。杨千嬅给人的感觉是很立体,一个爱哭爱笑的女孩。有一种离你很「近」的感觉。

所以说林夕能成功,能跟那么多歌手合作。他是很会分析歌手的特点,写的歌词也是很符合歌手唱的。

总结

本文是一次信息检索并且可视化结果的探索。由于数据量比较少,得出结论不一定可靠。最好将其当成一个故事--一个歌词的拆分和重组的故事,或许还是个有趣的故事。