数据解析的方式
- 正则
- bs4
- xpath
- pyquery
作用
- 帮助实现聚焦爬虫
数据解析的原理
- html用作于数据展示,而展示的数据位于两个位置:标签的属性中、标签中间
案例 1 图片爬取
-requests content:展示byte 类型 的数据
import requests
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
}
img_src = 'https://i03piccdn.sogoucdn.com/e931046dcf5606d8'
img_data = requests.get(img_src,headers=headers).content #content返回bytes类型的数据
with open('./123.jpg','wb') as fp:
fp.write(img_data)
- urllib
from urllib import request
img_src = 'https://i03piccdn.sogoucdn.com/e931046dcf5606d8'
request.urlretrieve(img_src,'./456.jpg')