首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
爬虫
小旺不正经
创建于2021-09-27
订阅专栏
爬虫
等 2 人订阅
共12篇文章
创建于2021-09-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
BeautifulSoup解析网页
BeautifulSoup解析网页 提取对象 遍历文档树 获取第一个acticle 的标题 搜索文档树 常用方法 find() 获取一个 find_all() 获取所有 实现使用find_all()
正则表达式解析网页
正则表达式解析网页 首先将源代码变成字符串,然后用正则表达式匹配想要的数据 模式 描述 模式 描述 . 匹配任意字符,除了换行符 \s 匹配空白字符 * 匹配前一个字符0或多次 \S 匹配任何非空白字
静态网页爬取-Requests
静态网页爬取-Requests r.text 服务器响应的内容,会自动根据响应头部字符编码进行解码 r.encoding 服务器内容使用的文本编码 r.status_code 检测响应的状态码 r.c
爬虫 必备小技巧
自定义函数 批量输出多个搜索结果的标题 结果保存为文本文件 写入代码 异常处理 写在循环中 不会让程序停止运行 而会输出运行失败 休眠时间 time.sleep(5) 括号里的单位是秒 放在什么位置
正则表达式入门-非贪婪匹配
非贪婪匹配 (.*?) 通常情况,满足匹配规则“456(.*?)789”的内容通常不止一个,那么findall()函数会从字符串的起始位置开始寻找文本A,找到后开始寻找文本B,当找到第一个文本B后,暂
精通Scrapy网络爬虫【九】下载文件和图片 实战演练
在配置文件settings.'scrapy.pipelines.files.在配置文件settings.在Spider解析一个包含文件下载链接的页面时,将所有需要下载文件的url地址收集到一个列表,赋给item的file_urls字段(item[‘file_urls’])。cla...
精通Scrapy网络爬虫【八】实战演练
前面我们爬取了http://books.toscrape.srcapy genspider books books.toscrape.scrapy genspider命令创建了文件t_book/spiders/books.class BooksSpider(scrapy.allo...
精通Scrapy网络爬虫【六】LinkExtractor提取链接
1.2.创建一个LinkExtractor对象,使用一个或多个构造器参数描述提取规则,这里传递给restrict_css参数一个CSS选择器表达式。它描述出下一页链接所在的区域(在li.next下)。3.4.用links[0]获取Link对象,用其构造Request对象并提交。f...
精通Scrapy网络爬虫【五】使用Item Pipeline处理数据
在Scrapy中,Item Pipeline是处理数据的组件,一个Item Pipeline就是一个包含特定接口的类,通常只负责一种功能的数据处理,在一个项目中可以同时启用多个ItemPipeline,它们按指定次序级联起来,形成一条数据处理流水线。在创建一个Scrapy项目时,...
精通Scrapy网络爬虫【四】 Item
在items.class BookItem(scrapy.name = scrapy.price = scrapy.for book in response.css('article.books['name']=book.xpath('./h3/a/@title').books[...
精通Scrapy网络爬虫【二】框架结构及工作原理
Request和Response是HTTP协议中的术语,即HTTP请求和HTTP响应,Scrapy框架中定义了相应的Request和Response类,这里的Item代表Spider从页面中爬取的一项数据。最后,我们来说明以上几种对象在框架中的流动过程。● 当SPIDER要爬取某...
精通Scrapy网络爬虫【一】第一个爬虫项目
1.下载页面一个网页的内容本质上就是一个HTML文本,爬取一个网页内容之前,首先要根据网页的URL下载网页。2.提取页面中的数据当一个网页(HTML)下载完成后,对页面中的内容进行分析,并提取出我们感兴趣的数据,提取到的数据可以以多种形式保存起来,比如将数据以某种格式(CSV、J...