Python - simons41090的收藏集 - 掘金

Python

更多收藏集

4篇文章 · 0订阅

python爬虫常用库之requests详解

在使用了urllib库之后，感觉很麻烦，比如获取个cookie都需要分几步，代码又多，这和python的风格好像有点不太像哈，那有没有更加容易点的请求库呢？答案是有的，那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz，创作这个库的原因就是想让py…

sergiojune
8年前
12k
43
评论

爬虫必学知识之正则表达式上篇

在向网页进行了提交请求之类的之后，我们可以得到了网页的返回内容，里面自然而然会有我们想要的数据，但是html元素文本这么多，我们不可能一一去找我们需要的数据，这时就需要用到正则表达式了，正则表达式是学爬虫必须学的内容，而且不止python可以用，java等其他语言都可以用，所…

sergiojune
8年前
1.0k
20
评论

爬虫必学知识之正则表达式下篇

继上篇文章说了正则表达式的简单用法，那今天我们就继续说一下正则表达式的复杂的用法。好了，废话不多说，直接进入正题。这样的话你就会得到一个错误的qq号码。组：前面我们有用 [ ] 来匹配，中括号里面表示的是或关系，而这里的组表示的是并关系，并且用小括号括起来 ( )。这里的…

sergiojune
8年前
1.0k
18
评论

python爬虫常用库之urllib详解

这个我添加了请求头进行请求，使我发送的请求更加接近浏览器的行为。可以对应一些反爬网站了如果网站需要进行登陆，这时需要用到post方法，用上面的也是可以的。代码如下：在登陆了网站之后，我们需要用到cookie来保存登陆信息，这时就需要获取cookie了。urllib获取coo…

sergiojune
8年前
1.4k
10
评论