之前知乎上有个很冷门的问答(百度指数诗歌这个词为什么在每年十一月二十多号的时候出现急速增加的趋势,这几天有什么重要的日子嘛? - 百度指数 - 知乎),我很用心得使用百度指数工具做了回答,并得到了最高票答案。但其实当时就隐隐地觉得哪里不对,但是故事就是这么展开的。

首先觉得提问者的发现很有意思的,大概在2016年8月。于是开始用百度指数做研究,“诗歌”的峰值出现在11月份的下旬或者第四周左右。

同时使用百度指数的高阶工具——“舆情图谱”进行深入研究。并配合时间轴等复杂参数,对比11月份第四周与其他时间段的区别,发现“感恩”这个词是仅在这个时间段出现的与“诗歌”高度相关且增长迅速的搜索词。

从搜索来源词以及搜索去向词来看,“感恩”的相关度也非常高,而这在其他时间段是没有的现象。即不少人在搜索“感恩”后去搜索“诗歌”,也有不少人在搜索“诗歌”后去搜索“感恩”。

同时从“感恩”系列词汇(包括:感恩、感恩节以及感恩父母等)的搜索量级以及增长速度来看,量级超过70万,足以影响“诗歌”而拉出10万左右的峰值。同时“感恩”系列词汇的上涨速度在这个时间段的增幅排名靠前,基本都是翻倍以上的增长,足见这是该时间段独有的现象。

第二步:被人打脸
2017年3月7日,睿智的知乎用户
发出文章质疑我之前的结论。原文如下:因为11月20日前后,学习人教版语文课本的六年级小学生,正好要做一个综合性学习活动——「轻叩诗歌的大门」。
于是,一场搜索诗歌的大跃进活动开始了。




最后,表示一下对最高票回答的反对。
「感恩」与「诗歌」确实有很强的相关性,但没有明显的因果关系。有多少人会想要用诗歌的方式来表达感恩呢?
搜索「诗歌」的群体,应该是学生。而能让学生有强烈动机去搜索的东西,大概就只有作业了吧~
第三步:自我批判及验证
看到的答案,第一感觉真是拔凉拔凉的。因为之前的担忧完全被戳中了,而且非常精准。道理上说得通,他的数据分析也令人信服,再把“诗歌”和“轻叩诗歌的大门”两个关键词的百度指数一对比,就更说明问题了。


第四步:自省自嘲
仔细回味整个被人打脸的过程,觉得特别有启发意义:数据分析师,往往重视数据而忽略了业务,容易闹出因果无关的笑话;这其中核心原因还是不求甚解,不去探究事物的本源。(希望大家以我这次被打脸的案例为戒)再次感谢
。曾经有个很有趣的国外网站(15 Insane Things That Correlate With Each Other),专门列出来看似逻辑相关但是其实因果关系错乱的例子。发出来与大家共享,以便行文自嘲。
1、尼古拉斯凯奇在电影中的出镜和淹死在游泳池里的人数,高度相关。

2、被床单缠死的人数和人均奶酪消耗量,高度相关。

3、美国在科技及空间领域的投入和绞死及各种窒息的花样作死的人数,高度相关。

…更多回答请看何明科
…更多文章请到数据冰山 - 知乎专栏