首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
爬虫
订阅
xingzhe115
更多收藏集
微信扫码分享
微信
新浪微博
QQ
8篇文章 · 0订阅
使用requests+BeautifulSoup的简单爬虫练习
上篇文章说了BeautifulSoup库之后,今篇文章就是利用上篇的知识来爬取我们今天的主题网站:猫眼电影top100。这个网站也挺容易的,所以大家可以先自己爬取下,遇到问题再来看下这篇文章哈。 很容易找到我们想要的信息,上面的5的箭头都是我们想要的信息,分别是电影图片地址、电…
我爬取了37000条球迷评论,知道了这场比赛的重要信息
这两天看恰好有nba决赛,是球迷的你肯定不会错过的,更何况今年的西部决赛是火箭对战勇士,今年的火箭是很强的,因为没到关键时候总会有人站出来。当然,勇士也是挺强的,毕竟不能小看库里杜兰特等四大巨头。 利用词云图一眼就可以看出球迷都在评论什么了,因为我爬取的是火箭主场对战勇士的第二…
练完这篇就会写正则
1. 匹配ing结尾单词 2. 匹配11位数的中国手机号: [-\w.+] 区间,表示 匹配符号 -,或字母、数字、下划线,或符号 . ,或符号 + * 表示出现,匹配前面的子表达式零次或多次。例如,zo* 能匹配 "z" 以及 "zoo" 1. 匹配9位数的QQ邮箱: 2. …
教你用python登陆豆瓣并爬取影评
鼠标所点的就是我接下来要爬的网站,先看看他的response和请求头之类的信息,他的请求方式时get,response是一个网页结构,这就好办了,我们就可以用正则来匹配出所要的数据,正则还是个很好用的东西,请大家务必要学会啊。那接下来就动手敲代码咯! 然后就用post把信息发到…
python爬虫常用库之requests详解
在使用了urllib库之后,感觉很麻烦,比如获取个cookie都需要分几步,代码又多,这和python的风格好像有点不太像哈,那有没有更加容易点的请求库呢?答案是有的,那就是第三方库requests,这个库的作者是大名鼎鼎的kennethreitz,创作这个库的原因就是想让py…
爬虫必学知识之正则表达式下篇
继上篇文章说了正则表达式的简单用法,那今天我们就继续说一下正则表达式的复杂的用法。好了,废话不多说,直接进入正题。 这样的话你就会得到一个错误的qq号码。 组:前面我们有用 [ ] 来匹配,中括号里面表示的是或关系,而这里的组表示的是并关系,并且用小括号括起来 ( )。 这里的…
爬虫必学知识之正则表达式上篇
在向网页进行了提交请求之类的之后,我们可以得到了网页的返回内容,里面自然而然会有我们想要的数据,但是html元素文本这么多,我们不可能一 一去找我们需要的数据,这时就需要用到正则表达式了,正则表达式是学爬虫必须学的内容,而且不止python可以用,java等其他语言都可以用,所…