爬完简书50w+条数据之后

1,575 阅读7分钟

Python 爬虫

如有侵权请告知删除

最近学习 Python ,第一个练手的项目就是简书(源码后面会放,先容我逼逼叨)

本次爬取的思路是想通过获取简书平台上所有分类、作者及文章数据,分析如下几点问题

  • 哪些人在用简书
  • 简书上什么类型的文章比重高
  • 是否可以靠简书创作维生
  • 简书最火的分类、作者和文章

爬取完数据之后,文章数据 476568 条,作者信息 115445 条,专题信息 865 条 先说明一下,目前获取的数据并非简书平台完整数据。简书对专题下文章的获取有限制,翻页只能获取前200页的数据,而每页返回10条数据,那么每个专题下只能获取到最多 2000 条文章信息。也就是说最多可以爬取 2000 * 865 = 1730000 条文章数据。由于同一篇文章可以被不同的专题收录,导致中间会出现大量重复数据,可以看出。实际获取的文章数据只有 476568 条,与理论值还是相差甚远

先看一下列出的统计数据

根据专题信息进行词频统计绘制的词云

专题下文章数量平均值为 6682.452

简书专题下文章数量占比

文章数量最多的专题排行前十

专题名称 文章数量
首页投稿(暂停使用,暂停投稿) 374466
每天写1000字 334612
264035
散文随笔 237942
简诗 204124
青春 194478
故事 178920
读书 172451
今日看点 158923
连载小说 142922

作者排名前十

作者 文字数量 粉丝数量 喜欢数量
刘淼 423008 310947 23012
阿里云云栖社区 3164537 291201 24499
Sir电影 5633989 286116 113564
简书版权中心 386397 277277 30321
电影聚焦 1673215 274832 5669
简书播客 239537 257569 6813
太湖浪子 547953 218205 42533
简书大学堂 472011 212979 12226
江昭和 942434 203082 35054
简宝玉 80437 190409 14397

文章阅读排名前十

文章 阅读数量
让我来一次性告诉你,空气炸锅究竟好不好用 1213082
越是难熬的日子,越要让自己有事可做 945236
Markdown——入门指南 918540
我可以不上班,你不行! 887105
献给写作者的 Markdown 新手指南 806548
微信平台全面封杀UBER的24小时里,优步做了什么 771078
中国最美现代诗,你知道这十首就够了 607625
提高情商,我推荐这5本书 498615
你在星巴克喝馥芮白了没? 444697
iOS和Android的app界面设计规范 437309

文章打赏排名前十

文章 打赏数量
怀念我的妻子顾琪 1553
报名截止,活动结束 - 零基础入门简笔画 507
王佩写作私密群招募(第二期在招)|来聊聊“好中文的样子” 347
招募截止丨一日一绘之21天手绘挑战营 333
【报名截止,招募结束】零基础入门简笔画之小插画——21天训练营第三期 305
因为并不聪明,所以努力把这些习惯坚持了7年 270
微信平台全面封杀UBER的24小时里,优步做了什么 264
没有婚姻,我拿什么保护你?我的爱人 226
对啊,就是嫌你穷才分手的啊 188
别学东学西了,先建立自己的知识体系吧 182

文章付费排名前十

文章 价格 付费数量
看了那么多写作课,你为什么还没写作挣到钱(纯干货) ¥5.21 1056
(经验分享)我是如何靠写作赚钱年入十几万的? ¥4.99 1015
分享干货版︱如何通过写作开启斜杠人生,赚取写作的第一桶金? ¥2.99 652
写出爆文有套路,这七条经验让你成为简书大V(干货) ¥5.21 403
我是如何用49天从懒癌晚期成功逆袭,兼职收入十几万的? ¥2.99 310
想赚点稿费,又不知道往哪里投怎么办?来这里告诉你! ¥3.50 299
如何在简书出版一本书(之一) ¥3.99 215
短篇小说丨杀人犯 援交女与热带风暴 ¥2.99 156
我也不是生来就是流浪狗 ¥2.99 140
穿越言情系列小说《心归何处》|轮回 ¥2.99 114

哪些人在用简书

根据词云图可以大致了解到,简书中的专题大部分与 IT 从业者相关

简书上什么类型的文章比重高

从词云中看,好像 IT 行业中,写技术、运营和产品相关的文章占比会比较大,但是请先明白,词云只是做了 基于专题标题 的词频统计,而专题的创建是面向用户开放的,可想而知,有一帮 IT 从业者在使用简书记录,并想从中建立自己的流量池 别急,再看看文章阅读、赞赏和付费的排行 这里给出了前十的数据,3个排行中从标题来看,与 IT 行业好像没太大关系

是否可以靠简书创作维生

分析该问题需要参考赞赏和付费排行 赞赏只能看看最多的是帮助我们了解上面类型的文章是简书用户所喜爱的,这是方向,而具体有没有干货,这个还需要看作者的实力了 而从付费排行中可以看出,付费数量最多的文章 看了那么多写作课,你为什么还没写作挣到钱(纯干货),看标题就知道,一片纯干货,夺得付费排行第一,而售价 ¥5.21,可以算出一篇文章让作者赚了 ¥5501.76,这里暂不考虑平台的抽成成或税务情况,还是个可观的数字。同时观察了一下该作者,共发布 3 篇收费文章,而综合看下来,从第一篇收费文章到最后一篇收费文章,对应的时间是 2018.03.27~2018.05.10,其中 2018.03.27 发布的便是这里列出的干货文章,成了爆文。但是后面发布的两篇文章的收益截止目前分别为 ¥2198.62 和 ¥522.69,从第一篇爆文发布至今 88 天,通过付费文章获益 ¥8223.07。

当然,这个是个案分析,如果希望追求准确度,建议有兴趣的朋友可以分析一下前10、50、100的收入排行数据,这样会更准确,也更直观

简书最火的分类、作者和文章 分类、作者和文章排行前面已经给出了,请参考上面的表格

我并不是上面专业的数据分析师,对数字的敏感度也不高,分析的并不全面,有需要的朋友可以下载源码后自行爬取

源码地址:点击下载

目前爬虫的效率非常低,跟爬取机制有非常大的关系 最近准备加入 redis 缓存待分析的文章链接,然后单独使用一条线程,用协程的形式进行文章数据分析 这样的话效率应该会提高很多,请关注