爬虫目录总览(持续更新中)
请求类
urllib2的使用(python2)
| urllib2目录 | 链接地址 |
|---|---|
| urlopen()的使用,返回的类文件对象的读取方法 | juejin.cn/post/703468… |
| response对象的三个方法geturl,getcode,info | juejin.cn/post/703468… |
| 增加headers | juejin.cn/post/703468… |
| Request对象的方法 | juejin.cn/post/703468… |
| urlencode/urlparse编解码 | juejin.cn/post/703468… |
| urlencode/urlparse 路径参数的生成 | juejin.cn/post/703468… |
| 使用add_data添加路径参数 | juejin.cn/post/703468… |
| post请求data参数 | juejin.cn/post/703468… |
| ajax的post请求 | juejin.cn/post/703468… |
| request对象的各种方法 | juejin.cn/post/703468… |
| 代理使用 | juejin.cn/post/703468… |
| 下载图片urlretrieve | juejin.cn/post/703468… |
| 判断是否发生了重定向 | juejin.cn/post/703469… |
| 解决https加密的问题 | juejin.cn/post/703469… |
| debug的使用方法 | juejin.cn/post/703469… |
| CookieJar内存(变量)使用cookie | juejin.cn/post/703469… |
| cookie信息保存文件 | juejin.cn/post/703469… |
| 文件cookie信息加载出来 | juejin.cn/post/703469… |
| 模拟登录记录cookie,然后在其他需要登录的页面使用(重点) | juejin.cn/post/703469… |
| urllib2的使用(总结) | juejin.cn/post/703469… |
request的总结
| requests目录 | 链接地址 |
|---|---|
| 响应代码 | juejin.cn/post/703443… |
| get方式的代码 | juejin.cn/post/703443… |
| post方式的代码 | juejin.cn/post/703443… |
| 上传文件 | juejin.cn/post/703443… |
| cookies的获取 | juejin.cn/post/703443… |
| cookie信息进行登录 | juejin.cn/post/703443… |
| cookie的使用 | juejin.cn/post/703444… |
| cookies设置 | juejin.cn/post/703444… |
| session设置 | juejin.cn/post/703444… |
| ssl证书校验 | juejin.cn/post/703446… |
| 本地证书验证 | juejin.cn/post/703446… |
| 代理的使用 | juejin.cn/post/703446… |
| 超时的使用 | juejin.cn/post/703446… |
| Request对象构造 | juejin.cn/post/703446… |
| auth认证 | juejin.cn/post/703446… |
| chardet编码 | juejin.cn/post/703446… |
| xmind总结 | juejin.cn/post/703446… |
selenium的总结
| selenium目录 | 链接地址 |
|---|---|
| selenium驱动对象/元素获取/发送信息 | juejin.cn/post/703471… |
| 模拟登录xxxx | juejin.cn/post/703471… |
| page_source和find_element_by_xapth | juejin.cn/post/703471… |
| selenium登录xxxx的程序:自动判断登录成功还是失败 | juejin.cn/post/703471… |
| 无界面浏览器 | juejin.cn/post/703471… |
| QQ空间的登录(failed) | juejin.cn/post/703471… |
| CSDN登录(滑动验证码无解) | juejin.cn/post/703472… |
| 操作js | juejin.cn/post/703472… |
| 模拟键盘进行操作 | juejin.cn/post/703472… |
| 多个浏览器窗口 | juejin.cn/post/703474… |
| 模拟鼠标进行操作 | juejin.cn/post/703474… |
| 模拟手机端的数据抓取 | juejin.cn/post/703474… |
| 前进/后退操作 | juejin.cn/post/703475… |
| xxxx登录 | juejin.cn/post/703475… |
| 跳转到提示框 | juejin.cn/post/703475… |
| cookie的相关操作 | juejin.cn/post/703475… |
| wait使用解决time.sleep()慢的问题 | juejin.cn/post/703475… |
| is_displayed的使用 | juejin.cn/post/703475… |
| 下拉菜单的实践 | juejin.cn/post/703475… |
| 文件的下载 | juejin.cn/post/703475… |
| 爬取快代理的所有的ip:port | juejin.cn/post/703475… |
| 爬取快代理的所有的ip:port,并验证是否可用 | juejin.cn/post/703475… |
| 解决网站屏蔽无界面浏览器的问题(未调通) | juejin.cn/post/703475… |
| 提取网页的所有文本 | juejin.cn/post/703475… |
| selenium总结 | juejin.cn/post/703475… |
解析类
BeautifulSoup的使用
| BeautifulSoup目录 | 链接地址 |
|---|---|
| bs4的Beautiful对象的生成 | juejin.cn/post/703448… |
| bs4的标签,属性,文本的提取 | juejin.cn/post/703448… |
| 巩固bs4的标签,属性,文本的提取 | juejin.cn/post/703448… |
| bs4的儿子节点等部分展示 | juejin.cn/post/703448… |
| bs4的find_all的使用方法(重点) | juejin.cn/post/703448… |
| bs4的select的使用方法(重点) | juejin.cn/post/703448… |
| bs4的find_all配合selenium | juejin.cn/post/703449… |
| urllib2配合bs4进行数据的提取 | juejin.cn/post/703449… |
| stockstar综合案例 | juejin.cn/post/703449… |
| BeautifulSoup总结 | juejin.cn/post/703449… |
xpath的使用
| xpath目录 | 链接地址 |
|---|---|
| 读取html字符串 | juejin.cn/post/703470… |
| 从文件中读取html字符串 | juejin.cn/post/703470… |
| 各种标签元素的提取 (重点) | juejin.cn/post/703470… |
| 强化数据提取代码 | juejin.cn/post/703470… |
| 结合urllib2完成网页数据的提取 | juejin.cn/post/703470… |
| 请求的中文细节问题 | juejin.cn/post/703470… |
| stockstar代码实战 | juejin.cn/post/703471… |
| haoduanzi代码实战 | juejin.cn/post/703471… |
| 父节点的使用 | juejin.cn/post/703471… |
| 属性多值contains的使用 | juejin.cn/post/703471… |
| 多个属性的and连接查找 | juejin.cn/post/703471… |
| 轴的使用 | juejin.cn/post/703471… |
| 综合案例 | juejin.cn/post/703471… |
| xpath总结 | juejin.cn/post/703471… |
re的使用
| re目录 | 链接地址 |
|---|---|
| re的使用(一) | juejin.cn/post/703476… |
| re的使用(二) | juejin.cn/post/703476… |
| re总结 | juejin.cn/post/703477… |
数据存储类
csv的使用
| csv目录 | 链接地址 |
|---|---|
| csv文件列表单行写入 | juejin.cn/post/703475… |
| 指定分隔符 | juejin.cn/post/703475… |
| csv文件列表多行写入 | juejin.cn/post/703475… |
| csv文件字典写入 | juejin.cn/post/703475… |
| csv的追加写入 | juejin.cn/post/703476… |
| 指定编码格式 | juejin.cn/post/703476… |
| csv库读取csv文件 | juejin.cn/post/703476… |
| pandas读取csv文件 | juejin.cn/post/703476… |
| csv总结 | juejin.cn/post/703476… |
json的使用
| json目录 | 链接地址 |
|---|---|
| json字符串生成json对象 | juejin.cn/post/703476… |
| json双引号,不能使用单引号 | juejin.cn/post/703476… |
| 文件读取json内容 | juejin.cn/post/703476… |
| json写入文件 | juejin.cn/post/703476… |
| json写入文件,indent指定缩进 | juejin.cn/post/703476… |
| 中文解码问题 | juejin.cn/post/703476… |
| csv总结 | juejin.cn/post/703476… |