稀土掘金 稀土掘金
    • 首页
    • AI Coding
    • 数据标注 NEW
    • 沸点
    • 课程
    • 直播
    • 活动
    • APP
      插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
Python
订阅
avatar
三姓码农张员外 创作等级LV.3
更多收藏集

微信扫码分享

微信
新浪微博
QQ

1篇文章 · 0订阅
  • Python3.X 爬虫实战(缓存与持久化)
    可以看到,关于 python 静态页面爬虫的相关核心基础其实已经介绍的差不多了,关于爬虫的 URL 管理器、下载器、解析器、输出器、并发爬取思想我们已经基本介绍了,但是到这里我们要学会思考一个棘手的问题——–缓存与持久化。简单说就是 Cache 或者 Persistence 了,这玩意和爬虫有啥关系呢?想象一下如果我们需要对同一个页面进行多次解析,我们前面的代码都会重新发起真实网络请求,这是不合理的,因为短期之内这个页面是不可能有更新的,我们重复拉取是没有意义的;其次我们很多时候爬虫的输出器其实就是需要把爬取的数据依据需求多元化的持久化下来,所以我们有必要先掌握常见的爬虫相关缓存及持久化。
    • 工匠若水
    • 8年前
    • 846
    • 34
    • 1
    Python