百万大数据架构6期2022NX

165 阅读4分钟

Download:百度网盘

提取码:600x

互联网技术催生了大数据时代的来临,大数据时代的数据形态有四大特点:首先数据体量巨大,非结构化数据的超大规模和增长占总数据量的80%至90%,比结构化数据增长快10到50倍;其次、大数据的异构和多样性,比如图片、新闻、博客、微博、微信等,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值;第三,价值密度低,大量的不相关信息,需要沙里淘金;第四,传播速度快,因此,需要实时分析而非批量式分析。

  在大数据时代,面对如此海量快速的信息,纯人工监测互联网已经不可行了。自动化舆情软件成为大数据环境下舆情监测和分析的引擎。监测舆情可以设立一些关键词,首先要与自己机构相关,可以包括竞争者或者是合作伙伴,然后要放在特定网络媒体进行搜集。所有“信息碎片”搜集完之后,我们开始聚合信息,判断哪些和产品相关,哪些跟区域相关,哪些跟自己相关。把这些信息进行精确地采集和过滤、炼化分析,包括传播统计和分析(媒介分析、主体传播分布、传播路径分析、传播源头追踪)、敏感(负面)舆情、舆情信息传播趋势分析,预判所收集到舆情信息的未来走势。在此基础上生成舆情简报,舆情简报由系统自动生成,以日或周为单位,对本阶段监测到的舆情进行统计和分析,包括舆情分布、热点舆情排行、负面舆情分析、正面舆情排行等情况。

R-C.jpg 纵轴的这个一般代表某个数值。 当然这个横纵轴也可以像下面这张图一样颠倒过来,很简单,对吧? 但是柱状图有一个常见的坑,还是拿这张图来举例。 这个数据是截止到4月14日,世界各国每100人接种了新冠疫苗的数量。 古巴最高是三百多,也就是平均每人接种了三针还多。 世界平均值是145,最下面的尼日利亚比较少,只有16。 但是同样的数据换个坐标轴效果就不一样了。 左边这张是原图的坐标轴,我只是换到了excel里作图。 右边这个呢我把尼日利亚给去掉了,然后把坐标原点换到从100开始。 你乍一看可能会觉得美国比巴基斯坦的疫苗接种率要高了五倍以上,但实际上只是它的1.6倍。 此外如果一组数据是以国家或者地区为单位的话,在地图上用颜色的深浅来体现,数据的大小,往往比柱状图要更加直观。

比如说刚才的各国每百人接种疫苗数量也可以用这张地图来显示,更直观。 但它也有刚才我们说到柱状图的原点非零的类似问题。 而且不同的人对于颜色的感知是不一样的。 色盲色弱就对某些颜色的变化不敏感,更有可能被图误导。 现实中也有个著名的例子,美国的福克斯新闻曾经在他的节目里放出过这样一张图,想要反映小布什的减税政策失效之后,美国的最高联邦收入税会上升多少? 左边这个柱子是失效前的税率35%,而右边的是失效后39.6%。 虽然税率只上涨了5%不到,但因为坐标轴从34%开始,看上去好像是翻了好几倍。 通过这几个例子,我想告诉大家,虽然有一句老话叫做一图胜千言,但是只看图不看数字可能会适得其反。 不要被柱状图的第一眼直觉给误导了。