Python爬虫常见问题

Python爬虫常见问题

Python爬虫常见问题

记录在学习 Python 爬虫的过程中，遇到的一些常见问题及解决方法，希望对大家有所帮助。

等 1 人订阅共7篇文章创建于2021-08-16

Python 如何比较两个路径下文件差异

小知识，大挑战！本文正在参与“程序员必备小知识”创作活动。我们可能会遇到这样一种情况，有两个文件夹，里面大部分的文件相同，少部分不一致，我们需要找出两个目录下差异的文件。主要用到的函数为 os.w

4年前
2.1k
1
评论

Python 常用的 OS 操作

小知识，大挑战！本文正在参与“程序员必备小知识”创作活动。 1. 获取当前目录下的所有文件可以使用 os.listdir(path) 函数，它可以返回 path 指定的文件夹包含的文件或文件夹

4年前
1.0k
1
评论

Python 爬虫遇到乱码怎么办

小知识，大挑战！本文正在参与“程序员必备小知识”创作活动。在使用爬虫程序下爬数据时候，经常会遇到乱码的问题，那遇到乱码该怎么办呢？一般大家看到乱码，下意识的觉得会不会是爬虫爬错东西了？其实没有

4年前
3.4k
2
评论

Python 爬虫遇到乱码怎么办

Python爬虫基础：使用 Python 爬虫时经常遇到的问题合集

从开始玩爬虫到现在差不多半年多了，写了不少爬虫，爬了不少网站，在博客里也分享了不少爬虫的教程。我的教程文章中，一般会附带完整的爬虫代码，大家只要搭建好环境，便可以直接运行使用。不少读者朋友在使用爬虫

4年前
1.1k
1
评论

Pyppeteer 学习笔记之三：如何在一个浏览器窗口中打开多个页签

使用 Pyppeteer 工具写爬虫时，我们一般可以用这样的方式来爬取网页。但是一般情况下，我们要爬取多个网页时，这个函数我们要调用 n 次，也就会创建 n 个浏览器窗口。尤其是爬

4年前
1.1k
点赞
评论

Pyppeteer 学习笔记之二：如何避开网站的反爬检测

有些网站的反爬机制是很强的，不仅网络请求中的参数经过 JS 加密，甚至还针对一些常用的爬虫工具，如 Selenium 作了屏蔽。比如前段时间我爬取的卫健委官网，反爬机制就相当变态（传

4年前
1.5k
点赞
评论

Pyppeteer 学习笔记之一：如何进行超时时时间设置

在爬取网页的过程中，不可避免会有一部分链接失效，或者各种原因导致服务器响应慢，甚至不响应。这里有一个超时时间的参数设置，就是如果服务器在指定时间内没有响应的话，程序直接停止等待响

4年前
2.2k
点赞
评论