难度等级:【进阶】
项目名称:基于PYTHON多线程的网页数据爬取
技术关键字:多线程、Python、网页
预备知识:
- 1.Python多线程编程
- 2.Python编程基础
- 3.Web编程基础
项目说明:
通过python多线程开发技术提升爬取网页数据的速度,同时也提升自身对于多线程技术的理解。
实验要求:
1.将文件target_list.xlsx中所有页面的标题全部读取出来放入到result.xlsx文件中
2.通过多线程实现
项目提示:
1.安装xlrd、xlwt、xlutils模块,以读取、编辑表格
2.通过threading模块实现多线程
3.安装beautifulsoup4库实现对页面的读取
4.通过re正则表达式模块实现内容搜索
项目素材(及下载):
下载地址:https:
素材使用说明:
参照给的素材,编写功能实现代码。
项目实施参考:
1.BeautifulSoup官方文档 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/
2.xlutils官方文档 https://xlutils.readthedocs.io/en/latest/
3.xlrd、xlwt、xlutils CSDN使用示例 https://blog.csdn.net/dcrmg/article/details/78358140
4.多线程教程 https://www.liaoxuefeng.com/wiki/1016959663602400/1017629247922688
5.多线程和多进程的对比及使用 https://cuiqingcai.com/3325.html