爬虫 - xingzhe115的收藏集 - 掘金

爬虫

更多收藏集

8篇文章 · 0订阅

使用requests+BeautifulSoup的简单爬虫练习

上篇文章说了BeautifulSoup库之后，今篇文章就是利用上篇的知识来爬取我们今天的主题网站：猫眼电影top100。这个网站也挺容易的，所以大家可以先自己爬取下，遇到问题再来看下这篇文章哈。很容易找到我们想要的信息，上面的5的箭头都是我们想要的信息，分别是电影图片地址、电…

sergiojune
7年前
2.6k
18
评论

我爬取了37000条球迷评论，知道了这场比赛的重要信息

这两天看恰好有nba决赛，是球迷的你肯定不会错过的，更何况今年的西部决赛是火箭对战勇士，今年的火箭是很强的，因为没到关键时候总会有人站出来。当然，勇士也是挺强的，毕竟不能小看库里杜兰特等四大巨头。利用词云图一眼就可以看出球迷都在评论什么了，因为我爬取的是火箭主场对战勇士的第二…

sergiojune
7年前
3.6k
49
3

练完这篇就会写正则

1. 匹配ing结尾单词 2. 匹配11位数的中国手机号： [-\w.+] 区间，表示匹配符号 -，或字母、数字、下划线，或符号 . ，或符号 + * 表示出现，匹配前面的子表达式零次或多次。例如，zo* 能匹配 "z" 以及 "zoo" 1. 匹配9位数的QQ邮箱： 2. …

锐玩道
6年前
25k
681
36

教你用python登陆豆瓣并爬取影评

鼠标所点的就是我接下来要爬的网站，先看看他的response和请求头之类的信息，他的请求方式时get，response是一个网页结构，这就好办了，我们就可以用正则来匹配出所要的数据，正则还是个很好用的东西，请大家务必要学会啊。那接下来就动手敲代码咯！然后就用post把信息发到…

sergiojune
8年前
2.5k
46
评论

python爬虫常用库之requests详解

在使用了urllib库之后，感觉很麻烦，比如获取个cookie都需要分几步，代码又多，这和python的风格好像有点不太像哈，那有没有更加容易点的请求库呢？答案是有的，那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz，创作这个库的原因就是想让py…

sergiojune
7年前
12k
43
评论

爬虫必学知识之正则表达式下篇

继上篇文章说了正则表达式的简单用法，那今天我们就继续说一下正则表达式的复杂的用法。好了，废话不多说，直接进入正题。这样的话你就会得到一个错误的qq号码。组：前面我们有用 [ ] 来匹配，中括号里面表示的是或关系，而这里的组表示的是并关系，并且用小括号括起来 ( )。这里的…

sergiojune
7年前
1.0k
18
评论

爬虫必学知识之正则表达式上篇

在向网页进行了提交请求之类的之后，我们可以得到了网页的返回内容，里面自然而然会有我们想要的数据，但是html元素文本这么多，我们不可能一一去找我们需要的数据，这时就需要用到正则表达式了，正则表达式是学爬虫必须学的内容，而且不止python可以用，java等其他语言都可以用，所…

sergiojune
7年前
1.0k
20
评论