拉勾 vip 辅助工具

2021-03-27 1,721 阅读2分钟

前言

最近拉勾教育在搞活动，vip 一个月19（强烈推荐购买），发现目前已有89个专栏可以订阅，但是一个月时间看完这些专栏时间肯定远远不够，所以我翻来覆去的思想斗争了一个月，决定写一个插件帮助拉勾教育提高vip的销量。

前提

必须有拉勾教育vip！！！

使用方式

登陆拉勾教育
复制登陆请求接口成功的 headers
替换crawl/crawl_list.py及crawl/crawl_content中的headers相关代码
爬取：
- 一键订阅：运行crawl/crawl_list.py中lessions_subscription() 方法
- 全量爬取：运行crawl/crawl_content.py 中 spider.crawl_all() 方法
- 增量爬取：运行crawl/crawl_content.py 中 spider.cral_increase()方法
- 转换为 pdf：运行htmltopdf.py中main方法

项目说明

第一次运行使用全量爬取，后续如果专栏更新，项目会记录未下载和未更新完的专栏。
增量更新为未更新完专栏的更新功能
目前需要手动在百度云网盘维护 pdf
增量更新时需要观看日志，并修改转换pdf文件夹，pdf_paths = []根据日志中更新的id,通过查看 https://kaiwu.lagou.com/course/courseInfo.htm?courseId=#{id}并修改更新id到需要更新的文件夹中
downloads.txt文件为新订阅后需要下载的专栏，unreleased.txt文件为未更新完的专栏,不要自己擅自改动这两个文件，否则会出错！！！

注意事项

第一次运行一定要全量爬取
目前需要手动删除相关文件：当转换pdf成功后，需要删除更新完/未更新完文件夹，如果不删除会导致未更新完的专栏在更新完以后会出现未更新完和已更新完两个文件夹中都存在该专栏的bug，由于这段时间还在找工作，可能这个bug很长一段时间都不会修复了...

流程图

项目完成度

项目地址

项目演示

vip 购买链接

微信图片_20210330215329.jpg