Python小说爬虫

活在梦里的Peter

2022-02-10 153 阅读1分钟

「这是我参与2022首次更文挑战的第24天，活动详情查看：2022首次更文挑战」。

我们根据上一篇入门里的爬虫步骤来。首先先明确我们需要的资源，这次用龙阅读做示例，网址为；

然后我们分析数据加载流程，先获取目标网页的HTML

获取目标网页的html

接下来就会爬取目标网页的html，爬出来这样的东西就可以了

目标网页的html

我们获取一下小说的名字（这里需要正则表达式，所以需导入re包）

小说命名的获取小说名字

出现了小说的名字就没有问题了

想要下载小说我们就需要一个文件来存放它，我们来建立一个文件

新建文件

这样写就很OK

接下来重点就要来了，我们要获取每个章节的内容了

我们先来分析一下网页的HTML，找到章节目录的那段代码

目录代码和链接

很显然，从

到之间的代码包含了所有的目录和链接，我们要把它们提取出来

获取目录章节链接

此时应该会输出链接

目录章节链接

继续进行到第三步，下载数据。循环每个章节，分别下载

获取每个章节的html

这时会输出章节的html

章节的html

用正则表达式获取小说的章节名字和内容（分析网页html与上分析目录相同，此处不再多说）

获取小说章节名字和小说章节内容

此时会打印出章节题目和章节内容

章节题目和章节内容

我们会发现题目和内容中含有好多其他东西，此时我们需要把这些东西清除

清洗数据

清洗之后的数据

清洗完之后，最后一步，把题目内容写入文件

数据持久化

这个带有自动下载的爬虫就完成了

生成文件

小说内容

完整代码