用爬虫揭露优信二手车车源量造假事实

9,198 阅读3分钟
原文链接: www.zhihu.com

我也看到了优信数据造假的报道,本着程序员严谨的态度,喜欢用技术解决问题,就写了个简单的爬虫代码来详细计算一下优信上面的数据真伪。

先打开优信北京页,看到了显示车辆为62475,共300页。 每页显示40辆车,共计显示40*30=12000辆车。 也就是存在着12000个url(网页链接)。于是就写了个简单的python爬虫把这北京的这300页都扫描了一遍,居然发现这12000个url在去重后居然只有1921个。

<img src="https://pic3.zhimg.com/v2-00acf56e9f3a464e0d76fe45438e5102_b.png" data-rawwidth="554" data-rawheight="197" class="origin_image zh-lightbox-thumb" width="554" data-original="https://pic3.zhimg.com/v2-00acf56e9f3a464e0d76fe45438e5102_r.png">
<img src="https://pic2.zhimg.com/v2-998c1f718792e85a45648d0ebe042cfd_b.png" data-rawwidth="555" data-rawheight="324" class="origin_image zh-lightbox-thumb" width="555" data-original="https://pic2.zhimg.com/v2-998c1f718792e85a45648d0ebe042cfd_r.png">

具体的数据如表中所示,可以看到这12000个展示的车辆中,其中有将近10000辆是靠40辆车重复出现获取到的。

无独有偶,全国的页面也是这样的,300页的车辆里存在着大量的重复数据。页面显示的是有180多万辆车源,优信全国的300页12000个展示中其实只展示了1637辆车。具体数据如下:

<img src="https://pic2.zhimg.com/v2-6ff01b8fa74e10037c68b72ff23b46f9_b.png" data-rawwidth="555" data-rawheight="324" class="origin_image zh-lightbox-thumb" width="555" data-original="https://pic2.zhimg.com/v2-6ff01b8fa74e10037c68b72ff23b46f9_r.png">

文章里还说优信里有很多一辆车对应多个车源号的情况。经过观察我发现优信里面所有车源的车源号是自增的,于是我将id从1000001开始向上增加扫描,用了多台虚拟机并发扫描了十几个小时后,扫描到了14422633。得到的结果如下

<img src="https://pic4.zhimg.com/v2-d873ba70dec2791102b53c1a683a3347_b.png" data-rawwidth="656" data-rawheight="208" class="origin_image zh-lightbox-thumb" width="656" data-original="https://pic4.zhimg.com/v2-d873ba70dec2791102b53c1a683a3347_r.png">

去重规则是:优信页面里的所有主要信息(品牌,车型,车系,年款,颜色,上牌时间,行驶里程,价格,城市)一致。 另:整体抓取时间较长,数据更新时间较长;数据不是最新的实时数据,但是可以表明优信各项数据的量级。 不知道车源造假这种事在二手车电商里普不普遍,公平起见,我也看了下打广告很猛的瓜子和人人车,先看页面显示:

优信全国车源总量显示1840187


<img src="https://pic3.zhimg.com/v2-e4cef4aef9a4b22d3f58a55ef81555d6_b.png" data-rawwidth="1269" data-rawheight="533" class="origin_image zh-lightbox-thumb" width="1269" data-original="https://pic3.zhimg.com/v2-e4cef4aef9a4b22d3f58a55ef81555d6_r.png">

人人车没有显示具体车源总量


<img src="https://pic4.zhimg.com/v2-54fe74b690c65be620df40fe559ce70b_b.png" data-rawwidth="1208" data-rawheight="380" class="origin_image zh-lightbox-thumb" width="1208" data-original="https://pic4.zhimg.com/v2-54fe74b690c65be620df40fe559ce70b_r.png">

瓜子二手车全国车源总量显示98019辆


<img src="https://pic2.zhimg.com/v2-b8d54af604c4befb7a940f2da27c153d_b.png" data-rawwidth="1293" data-rawheight="699" class="origin_image zh-lightbox-thumb" width="1293" data-original="https://pic2.zhimg.com/v2-b8d54af604c4befb7a940f2da27c153d_r.png">

分别爬取了一下人人车和瓜子二手车的全国列表页,都不存在重复显示的问题。统计了一下他们的数量,和优信的真实车源辆做个对比(时间2017年2月10日)。结果如下:

<img src="https://pic1.zhimg.com/v2-765e7c56c427a26ac1016e36221fc514_b.png" data-rawwidth="666" data-rawheight="79" class="origin_image zh-lightbox-thumb" width="666" data-original="https://pic1.zhimg.com/v2-765e7c56c427a26ac1016e36221fc514_r.png">

三家网站都是实时更新车源数据,抓取时间和截图时间中间有时间差,各网站再这个时间差中会新增或下架已售车源,截图数据结果会与我的抓取数据结果有一定偏差,偏差我认为低于2位数比较合理,但是肯定不会有百万辆级偏差。。。

数据已经了然,大家自行判断~