爬虫目录总览

149 阅读3分钟

爬虫目录总览(持续更新中)

请求类

urllib2的使用(python2)

urllib2目录链接地址
urlopen()的使用,返回的类文件对象的读取方法juejin.cn/post/703468…
response对象的三个方法geturl,getcode,infojuejin.cn/post/703468…
增加headersjuejin.cn/post/703468…
Request对象的方法juejin.cn/post/703468…
urlencode/urlparse编解码juejin.cn/post/703468…
urlencode/urlparse 路径参数的生成juejin.cn/post/703468…
使用add_data添加路径参数juejin.cn/post/703468…
post请求data参数juejin.cn/post/703468…
ajax的post请求juejin.cn/post/703468…
request对象的各种方法juejin.cn/post/703468…
代理使用juejin.cn/post/703468…
下载图片urlretrievejuejin.cn/post/703468…
判断是否发生了重定向juejin.cn/post/703469…
解决https加密的问题juejin.cn/post/703469…
debug的使用方法juejin.cn/post/703469…
CookieJar内存(变量)使用cookiejuejin.cn/post/703469…
cookie信息保存文件juejin.cn/post/703469…
文件cookie信息加载出来juejin.cn/post/703469…
模拟登录记录cookie,然后在其他需要登录的页面使用(重点)juejin.cn/post/703469…
urllib2的使用(总结)juejin.cn/post/703469…

request的总结

requests目录链接地址
响应代码juejin.cn/post/703443…
get方式的代码juejin.cn/post/703443…
post方式的代码juejin.cn/post/703443…
上传文件juejin.cn/post/703443…
cookies的获取juejin.cn/post/703443…
cookie信息进行登录juejin.cn/post/703443…
cookie的使用juejin.cn/post/703444…
cookies设置juejin.cn/post/703444…
session设置juejin.cn/post/703444…
ssl证书校验juejin.cn/post/703446…
本地证书验证juejin.cn/post/703446…
代理的使用juejin.cn/post/703446…
超时的使用juejin.cn/post/703446…
Request对象构造juejin.cn/post/703446…
auth认证juejin.cn/post/703446…
chardet编码juejin.cn/post/703446…
xmind总结juejin.cn/post/703446…

selenium的总结

selenium目录链接地址
selenium驱动对象/元素获取/发送信息juejin.cn/post/703471…
模拟登录xxxxjuejin.cn/post/703471…
page_source和find_element_by_xapthjuejin.cn/post/703471…
selenium登录xxxx的程序:自动判断登录成功还是失败juejin.cn/post/703471…
无界面浏览器juejin.cn/post/703471…
QQ空间的登录(failed)juejin.cn/post/703471…
CSDN登录(滑动验证码无解)juejin.cn/post/703472…
操作jsjuejin.cn/post/703472…
模拟键盘进行操作juejin.cn/post/703472…
多个浏览器窗口juejin.cn/post/703474…
模拟鼠标进行操作juejin.cn/post/703474…
模拟手机端的数据抓取juejin.cn/post/703474…
前进/后退操作juejin.cn/post/703475…
xxxx登录juejin.cn/post/703475…
跳转到提示框juejin.cn/post/703475…
cookie的相关操作juejin.cn/post/703475…
wait使用解决time.sleep()慢的问题juejin.cn/post/703475…
is_displayed的使用juejin.cn/post/703475…
下拉菜单的实践juejin.cn/post/703475…
文件的下载juejin.cn/post/703475…
爬取快代理的所有的ip:portjuejin.cn/post/703475…
爬取快代理的所有的ip:port,并验证是否可用juejin.cn/post/703475…
解决网站屏蔽无界面浏览器的问题(未调通)juejin.cn/post/703475…
提取网页的所有文本juejin.cn/post/703475…
selenium总结juejin.cn/post/703475…

解析类

BeautifulSoup的使用

BeautifulSoup目录链接地址
bs4的Beautiful对象的生成juejin.cn/post/703448…
bs4的标签,属性,文本的提取juejin.cn/post/703448…
巩固bs4的标签,属性,文本的提取juejin.cn/post/703448…
bs4的儿子节点等部分展示juejin.cn/post/703448…
bs4的find_all的使用方法(重点)juejin.cn/post/703448…
bs4的select的使用方法(重点)juejin.cn/post/703448…
bs4的find_all配合seleniumjuejin.cn/post/703449…
urllib2配合bs4进行数据的提取juejin.cn/post/703449…
stockstar综合案例juejin.cn/post/703449…
BeautifulSoup总结juejin.cn/post/703449…

xpath的使用

xpath目录链接地址
读取html字符串juejin.cn/post/703470…
从文件中读取html字符串juejin.cn/post/703470…
各种标签元素的提取 (重点)juejin.cn/post/703470…
强化数据提取代码juejin.cn/post/703470…
结合urllib2完成网页数据的提取juejin.cn/post/703470…
请求的中文细节问题juejin.cn/post/703470…
stockstar代码实战juejin.cn/post/703471…
haoduanzi代码实战juejin.cn/post/703471…
父节点的使用juejin.cn/post/703471…
属性多值contains的使用juejin.cn/post/703471…
多个属性的and连接查找juejin.cn/post/703471…
轴的使用juejin.cn/post/703471…
综合案例juejin.cn/post/703471…
xpath总结juejin.cn/post/703471…

re的使用

re目录链接地址
re的使用(一)juejin.cn/post/703476…
re的使用(二)juejin.cn/post/703476…
re总结juejin.cn/post/703477…

数据存储类

csv的使用

csv目录链接地址
csv文件列表单行写入juejin.cn/post/703475…
指定分隔符juejin.cn/post/703475…
csv文件列表多行写入juejin.cn/post/703475…
csv文件字典写入juejin.cn/post/703475…
csv的追加写入juejin.cn/post/703476…
指定编码格式juejin.cn/post/703476…
csv库读取csv文件juejin.cn/post/703476…
pandas读取csv文件juejin.cn/post/703476…
csv总结juejin.cn/post/703476…

json的使用

json目录链接地址
json字符串生成json对象juejin.cn/post/703476…
json双引号,不能使用单引号juejin.cn/post/703476…
文件读取json内容juejin.cn/post/703476…
json写入文件juejin.cn/post/703476…
json写入文件,indent指定缩进juejin.cn/post/703476…
中文解码问题juejin.cn/post/703476…
csv总结juejin.cn/post/703476…