shejunwei

赞

2

|

搜索文章

赞

文章( 2 ) 沸点( 0 )

初学Python爬虫之简单爬取小说的网页链接及目录

以上这段html文件是我从网站上查看到的，我们可以发现用红笔圈出来的部分使我们需要的数据，而这些数据都在蓝笔圈出来的部分里面那么我们可以把问题分为三个步骤。1.提取html里“dl”内的部分 2.提取“dl”内"dd"的部分 3.清洗数据，取出我们要的部分。

chuxuez
7年前
2.2k
1
1

做一个简单的python爬虫

我们先来试试把这个网址的内容全部爬取. 根据图中的内容我们可以发现，爬虫的作用其实就是把html文件中我们需要的内容截取下来。通过观察，我们可以发现我们需要的所有信息都在一对dl标记中,那我们可以先把这对标记之外的信息全部清除掉,我这里使用了正则表达式：这时候内容就清楚多了，…

shejunwei
7年前
454
2
评论

个人成就

文章被点赞 2

文章被阅读 454

加入于

2019-01-02