前言
最近拉勾教育在搞活动,vip
一个月19(强烈推荐购买),发现目前已有89个专栏可以订阅,但是一个月时间看完这些专栏时间肯定远远不够,所以我翻来覆去的思想斗争了一个月,决定写一个插件帮助拉勾教育提高vip
的销量。
前提
必须有拉勾教育vip
!!!
使用方式
-
登陆 拉勾教育
-
复制登陆请求接口成功的
headers
-
替换
crawl/crawl_list.py
及crawl/crawl_content
中的headers
相关代码 -
爬取:
- 一键订阅:运行
crawl/crawl_list.py
中lessions_subscription()
方法 - 全量爬取:运行
crawl/crawl_content.py
中spider.crawl_all()
方法 - 增量爬取:运行
crawl/crawl_content.py
中spider.cral_increase()
方法 - 转换为 pdf:运行
htmltopdf.py
中main
方法
- 一键订阅:运行
项目说明
-
第一次运行使用全量爬取,后续如果专栏更新,项目会记录未下载和未更新完的专栏。
-
增量更新为未更新完专栏的更新功能
-
目前需要手动在百度云网盘维护 pdf
-
增量更新时需要观看日志,并修改转换pdf文件夹,
pdf_paths = []
根据日志中更新的id,通过查看https://kaiwu.lagou.com/course/courseInfo.htm?courseId=#{id}
并修改更新id到需要更新的文件夹中 -
downloads.txt
文件为新订阅后需要下载的专栏,unreleased.txt
文件为未更新完的专栏,不要自己擅自改动这两个文件,否则会出错!!!
注意事项
- 第一次运行一定要全量爬取
- 目前需要手动删除相关文件:当转换pdf成功后,需要删除更新完/未更新完文件夹,如果不删除会导致未更新完的专栏在更新完以后会出现未更新完和已更新完两个文件夹中都存在该专栏的
bug
,由于这段时间还在找工作,可能这个bug很长一段时间都不会修复了...
流程图
项目完成度
- 爬取拉勾课程
- 生成pdf
- 一键获取所有vip专栏订阅
- 一键下载所有专栏
- 多线程爬取专栏
- 全量爬取专栏
- 增量爬取专栏
- 更新未更新完得专栏并记录由未更新完变为更新完的专栏
- 登陆功能