爬虫

爬虫

等 2 人订阅共12篇文章创建于2021-09-27

BeautifulSoup解析网页

BeautifulSoup解析网页提取对象遍历文档树获取第一个acticle 的标题搜索文档树常用方法 find() 获取一个 find_all() 获取所有实现使用find_all()

3年前
205
6
评论

正则表达式解析网页

正则表达式解析网页首先将源代码变成字符串，然后用正则表达式匹配想要的数据模式描述模式描述 . 匹配任意字符，除了换行符 \s 匹配空白字符 * 匹配前一个字符0或多次 \S 匹配任何非空白字

3年前
1.8k
5
评论

静态网页爬取-Requests

静态网页爬取-Requests r.text 服务器响应的内容，会自动根据响应头部字符编码进行解码 r.encoding 服务器内容使用的文本编码 r.status_code 检测响应的状态码 r.c

3年前
542
6
评论

爬虫必备小技巧

自定义函数批量输出多个搜索结果的标题结果保存为文本文件写入代码异常处理写在循环中不会让程序停止运行而会输出运行失败休眠时间 time.sleep(5) 括号里的单位是秒放在什么位置

4年前
161
35
评论

正则表达式入门-非贪婪匹配

非贪婪匹配 (.*?) 通常情况，满足匹配规则“456(.*?)789”的内容通常不止一个，那么findall()函数会从字符串的起始位置开始寻找文本A，找到后开始寻找文本B，当找到第一个文本B后，暂

4年前
3.2k
32
评论

精通Scrapy网络爬虫【九】下载文件和图片实战演练

在配置文件settings.'scrapy.pipelines.files.在配置文件settings.在Spider解析一个包含文件下载链接的页面时，将所有需要下载文件的url地址收集到一个列表，赋给item的file_urls字段（item[‘file_urls’]）。cla...

4年前
758
11
评论

精通Scrapy网络爬虫【八】实战演练

前面我们爬取了http://books.toscrape.srcapy genspider books books.toscrape.scrapy genspider命令创建了文件t_book/spiders/books.class BooksSpider(scrapy.allo...

4年前
362
11
评论

精通Scrapy网络爬虫【六】LinkExtractor提取链接

1.2.创建一个LinkExtractor对象，使用一个或多个构造器参数描述提取规则，这里传递给restrict_css参数一个CSS选择器表达式。它描述出下一页链接所在的区域（在li.next下）。3.4.用links[0]获取Link对象，用其构造Request对象并提交。f...

4年前
299
11
评论

精通Scrapy网络爬虫【五】使用Item Pipeline处理数据

在Scrapy中，Item Pipeline是处理数据的组件，一个Item Pipeline就是一个包含特定接口的类，通常只负责一种功能的数据处理，在一个项目中可以同时启用多个ItemPipeline，它们按指定次序级联起来，形成一条数据处理流水线。在创建一个Scrapy项目时，...

4年前
411
10
评论

精通Scrapy网络爬虫【四】 Item

在items.class BookItem(scrapy.name = scrapy.price = scrapy.for book in response.css('article.books['name']=book.xpath('./h3/a/@title').books[...

4年前
161
10
评论

精通Scrapy网络爬虫【二】框架结构及工作原理

Request和Response是HTTP协议中的术语，即HTTP请求和HTTP响应，Scrapy框架中定义了相应的Request和Response类，这里的Item代表Spider从页面中爬取的一项数据。最后，我们来说明以上几种对象在框架中的流动过程。● 当SPIDER要爬取某...

4年前
256
9
评论

精通Scrapy网络爬虫【一】第一个爬虫项目

1．下载页面一个网页的内容本质上就是一个HTML文本，爬取一个网页内容之前，首先要根据网页的URL下载网页。2．提取页面中的数据当一个网页（HTML）下载完成后，对页面中的内容进行分析，并提取出我们感兴趣的数据，提取到的数据可以以多种形式保存起来，比如将数据以某种格式（CSV、J...

4年前
265
10
评论