运维家

运维主管

赞

33

|

搜索文章

python爬虫-33-python字体反爬，网页看到的和实际下载的不一致（实操）

1、查找自定义字体基于什么样子的现状需要去查找自定义字体，这个都很清楚了吧，前文已经说的很清楚了。那么既然是前端展示，那肯定是渲染到了前端代码中了，我们查看网页源代码即可查到，一般有两种方式； 1

3年前
345
点赞
评论

python爬虫-32-python字体反爬，网页看到的和实际下载的不一致（理论）

1、描述当我们爬取网站过多的时候，是不是会发现一种情况，就是说明明在网页看到了实际的数据，但是当你使用python爬虫爬取下来之后，数据就变成乱码了，识别不到是什么内容。比如说我们看到了网页的数据

3年前
142
点赞
评论

python爬虫-31-python图形验证码进阶，识别中文（二）

1、python识别图片中的中文字符-old 先来看下默认的情况下识别中文是什么样子的呢，比如我们要识别下图：然后我们写出如下代码：运行结果：可以看到并没有识别出来，是乱码； 2、安装tesse

3年前
308
点赞
评论

python爬虫-30-python之图形验证码技术

1、安装tesseract 这里我们使用Tesseract软件来进行识别，这个需要提前在你自己的电脑上安装，而后python通过调用该软件来进行识别，不同的平台，比如windows、linux、mac

3年前
409
点赞
评论

python爬虫-29-selenium进阶操作，还不赶紧收藏起来

1、selenium的cookie相关操作有时候我们需要通过获取cookie来进行一些别的操作，这个时候我们如何对cookie进行相关操作呢？ 1.1、获取cookie 运行之后结果如下： 1.2、

3年前
162
点赞
评论

python爬虫-28-基于python和Selenium，让你控制浏览器自动化操作

1、selenium打开浏览器打开浏览器就是初始化一下，然后发起一个请求，他就会自动调用浏览器，并访问这个地址： 2、selenium关闭某个标签页当我们在一个浏览器中打开多个标签页的时候，想关闭

3年前
403
点赞
评论

python爬虫-27-python之Selenium入门，动态网页抓取

1、介绍 1.1、动态网页是什么？动态网页就是使用了Ajax技术的前端； Ajax即Asynchronous Javascript And XML（异步JavaScript和XML）在 2005年被

3年前
327
点赞
评论

python爬虫-26-批量爬取表情包，让你斗图再也不会陷入无图可发的窘境

1、介绍平台：斗图啦语言：python 技术：python多线程、python安全队列、python之Xpath、正则、request 以上我们使用的技术，都是之前整理过的对不对，那么我们就根据之

3年前
161
点赞
评论

python爬虫-25-python多线程安全队列Queue详解

1、python之Queue介绍 =================== Python中的queue模块中提供了同步的、线程安全的队列类，包括FIFO（先进先出）队列Queue，LIFO（后入先出）队

3年前
262
点赞
评论

python爬虫-24-python多线程详解（3）生产者和消费者模式

1、lock版本生产者和消费者生产者和消费者是多线程开发中经常遇到的一个模式。生产者专门用来生产一些数据，然后存放到一个变量中。消费者再从这个变量中取出数据进行消费。因为中间经常是一些全局变量，故而

3年前
303
点赞
评论

个人成就

文章被点赞 37

文章被阅读 40,170

掘力值 1,609

加入于

2022-02-09