首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
世界的隐喻
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
最新
热门
工欲善其事,必先利其器 —— selenium 模块(3)
@[TOC](selenium 模块自动化操作(2)(以京东为例)) 页面滚动 我们首先打开京东的页面,随便输入一个商品名称会看到如下的页面。 我们可以先数一数页面有多少商品。 如果我们使用滚轮滚动,
工欲善其事,必先利其器 —— selenium 模块(2)
@[TOC](selenium 自动化操作(1)(以百度翻译为例)) 我们运行程序发现我们使用 selenium 请求到的网页和我们自己打开的网页有一点不同。 使用 selenium 请求到的网页多了
工欲善其事,必先利其器 —— selenium模块(1)
@[TOC](selenium 模块) 简单介绍 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质
工欲善其事,必先利其器——协程(3)
@[TOC](使用 aiohttp 完成异步爬取图片) 代码演示 看一下运行结果 @[TOC](使用 aiohttp 完成异步爬取图片) # 代码演示
工欲善其事,必先利其器——协程(2)
resquests 协程的尝试 前面我们学习了协程的简单的语法,以及写了一段代码实现了简单的协程。而我们的目的是为了实现异步爬虫。所以我们就用 requests 模块尝试一下协程 flask服务 首先
工欲善其事,必先利其器——协程(1)
什么是协程 简单来说,协程就是同时开启多个任务,但一次只顺序执行一个。等到所执行的任务遭遇阻塞,就切换到下一个任务继续执行,以期节省下阻塞所占用的时间。 简单说明 简单的代码示例 我们可以看看运行的结
工欲善其事,必先利其器——线程池的使用(2)
好吧,我们前面爬取图片发现使用了线程池后,其实我们的效率提高不是这么明显。那我们就来试一试爬取视频吧。因为不同的网站对视频的反爬的策略都不尽相同,所以我们这里讲的示例并没有普世的意义。唯一普世的做法是
工欲善其事,必先利其器——线程池的使用
@TOC 学到现在,我们可以说已经学习了爬虫的基础知识,如果没有那些奇奇怪怪的反爬虫机制,基本上只要有时间分析,一般的数据都是可以爬取的,那么到了这个时候我们需要考虑的就是爬取的效率了,关于提高爬虫效
工欲善其事,必先利其器——识别验证码(3)
爬取人人网用户个人页面 如图的页面是我们这次需要爬取的页面,即人人网的个人页面 一开始我们的想法是利用爬虫模拟登录,然后再获取我们需要爬取的网页页面。 想到这里,我们就先来写代码吧。 然后我们看看运行
工欲善其事,必先利其器——识别验证码(2)
模拟登录人人网 前面我们学习了使用第三方平台实现验证码的识别,那现在就让我们来用验证码的识别实现人人网的登录。 首先我们先到人人网的登录页面去踩点。
下一页
个人成就
文章被点赞
5
文章被阅读
9,386
掘力值
113
关注了
0
关注者
0
收藏集
0
关注标签
3
加入于
2022-03-19