稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
shejunwei的个人资料头像

shejunwei

创作等级LV.1
掘友等级
掘友1级:预备掘友
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2 沸点 0
赞
2
返回
|
搜索文章
赞
文章( 2 ) 沸点( 0 )
  • 初学Python爬虫之简单爬取小说的网页链接及目录
    以上这段html文件是我从网站上查看到的,我们可以发现用红笔圈出来的部分使我们需要的数据,而这些数据都在蓝笔圈出来的部分里面那么我们可以把问题分为三个步骤。1.提取html里“dl”内的部分 2.提取“dl”内"dd"的部分 3.清洗数据,取出我们要的部分。
    • chuxuez
    • 7年前
    • 2.2k
    • 1
    • 1
    Python
  • 做一个简单的python爬虫
    我们先来试试把这个网址的内容全部爬取. 根据图中的内容我们可以发现,爬虫的作用其实就是把html文件中我们需要的内容截取下来。通过观察,我们可以发现我们需要的所有信息都在一对dl标记中,那我们可以先把这对标记之外的信息全部清除掉,我这里使用了正则表达式: 这时候内容就清楚多了,…
    • shejunwei
    • 7年前
    • 451
    • 2
    • 评论
    Python
  • 个人成就
    文章被点赞 2
    文章被阅读 451
    掘力值 15
    关注了
    5
    关注者
    0
    收藏集
    0
    关注标签
    10
    加入于
    2019-01-02