拉勾 vip 辅助工具

1,480 阅读2分钟

前言

最近拉勾教育在搞活动,vip 一个月19(强烈推荐购买),发现目前已有89个专栏可以订阅,但是一个月时间看完这些专栏时间肯定远远不够,所以我翻来覆去的思想斗争了一个月,决定写一个插件帮助拉勾教育提高vip的销量。

前提

必须有拉勾教育vip!!!

使用方式

  1. 登陆 拉勾教育

  2. 复制登陆请求接口成功的 headers

  3. 替换crawl/crawl_list.pycrawl/crawl_content中的headers相关代码

  4. 爬取:

    • 一键订阅:运行crawl/crawl_list.pylessions_subscription() 方法
    • 全量爬取:运行crawl/crawl_content.pyspider.crawl_all() 方法
    • 增量爬取:运行crawl/crawl_content.pyspider.cral_increase()方法
    • 转换为 pdf:运行htmltopdf.pymain方法

项目说明

  1. 第一次运行使用全量爬取,后续如果专栏更新,项目会记录未下载和未更新完的专栏。

  2. 增量更新为未更新完专栏的更新功能

  3. 目前需要手动在百度云网盘维护 pdf

  4. 增量更新时需要观看日志,并修改转换pdf文件夹,pdf_paths = []根据日志中更新的id,通过查看 https://kaiwu.lagou.com/course/courseInfo.htm?courseId=#{id}并修改更新id到需要更新的文件夹中

  5. downloads.txt文件为新订阅后需要下载的专栏,unreleased.txt文件为未更新完的专栏,不要自己擅自改动这两个文件,否则会出错!!!

注意事项

  1. 第一次运行一定要全量爬取
  2. 目前需要手动删除相关文件:当转换pdf成功后,需要删除更新完/未更新完文件夹,如果不删除会导致未更新完的专栏在更新完以后会出现未更新完和已更新完两个文件夹中都存在该专栏的bug,由于这段时间还在找工作,可能这个bug很长一段时间都不会修复了...

流程图

process.png

项目完成度

  • 爬取拉勾课程
  • 生成pdf
  • 一键获取所有vip专栏订阅
  • 一键下载所有专栏
  • 多线程爬取专栏
  • 全量爬取专栏
  • 增量爬取专栏
  • 更新未更新完得专栏并记录由未更新完变为更新完的专栏
  • 登陆功能

项目地址

代码

项目演示

edu.gif

vip 购买链接

微信图片_20210330215329.jpg