首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
不想长大_
掘友等级
南京大学
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
1
文章 1
沸点 0
赞
1
返回
|
搜索文章
不想长大_
@南京大学
·
1年前
举报
搞课题需要爬一些国外公司的隐私政策...
印象中的爬虫: 爬取数据过快以至于需要sleep防止被封
实际基于Playwright的爬虫:
Round 1: 我先设个60秒的timeout,够慷慨了吧这时间
Round 2: 我去,小瞧了这些大公司网页的数据,来个5分钟来,5分钟不够再捕获异常再来个10分钟
Round 3:
还报timeout exception?我要去吃饭了,我设个1小时,累死爬虫我也要给你数据爬喽
Round 4:
试试把video audio font都过滤一下?
Round 5:
我绝望了,大网页还是手工复制内容吧。学会放弃是一种智慧
展开
上班摸鱼
分享
评论
点赞
不想长大_
@南京大学
·
1年前
举报
#新人报道#
感觉这个难度等级分类很玄学。。。是我的问题嘛
分享
评论
点赞
个人成就
文章被阅读
1,099
掘力值
32
关注了
1
关注者
0
收藏集
0
关注标签
15
加入于
2024-10-15