爬虫系列 - 寻找方向的收藏集 - 掘金

爬虫系列

更多收藏集

5篇文章 · 0订阅

Python 爬虫库 - Beautiful Soup 的使用

Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库，简单来说，它能将 HTML 的标签文件解析成树形结构，然后方便地获取到指定标签的对应属性。

稀土君
9年前
3.5k
134
评论

Python 爬虫库 - Beautiful Soup 的使用

python爬虫常用库之requests详解

在使用了urllib库之后，感觉很麻烦，比如获取个cookie都需要分几步，代码又多，这和python的风格好像有点不太像哈，那有没有更加容易点的请求库呢？答案是有的，那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz，创作这个库的原因就是想让py…

sergiojune
8年前
12k
43
评论

python3.x爬取网易云音乐，超详细版

一看到这个，密密麻麻的数字和字母，就猜应该是被加密了，不过可以复制下来看看有没有用。接下来看下他的Response，咦，这是个json，不是html结构的，所以需要用到Json库来进行解析现在开始敲代码吧，先把上面的两个参数复制过来看看。可以看到，利用json.loads(…

sergiojune
8年前
7.5k
176
8

python爬虫常用库之urllib详解

这个我添加了请求头进行请求，使我发送的请求更加接近浏览器的行为。可以对应一些反爬网站了如果网站需要进行登陆，这时需要用到post方法，用上面的也是可以的。代码如下：在登陆了网站之后，我们需要用到cookie来保存登陆信息，这时就需要获取cookie了。urllib获取coo…

sergiojune
8年前
1.4k
10
评论

Python爬虫之模拟知乎登录

经常写爬虫的都知道，有些页面在登录之前是被禁止抓取的，比如知乎的话题页面就要求用户登录才能访问，而 “登录” 离不开 HTTP 中的 Cookie 技术。登录原理 Cookie 的原理非常简单，因为 HTTP 是一种无状态的协议，因此为了在无状态的 HTTP 协议之上维护会话…

刘志军
8年前
9.2k
157
5

Python爬虫之模拟知乎登录