爬虫——数据解析

131 阅读1分钟

数据解析的方式

  • 正则
  • bs4
  • xpath
  • pyquery

作用

  • 帮助实现聚焦爬虫

数据解析的原理

  • html用作于数据展示,而展示的数据位于两个位置:标签的属性中、标签中间

案例 1 图片爬取

-requests content:展示byte 类型 的数据

import requests
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36',
}
img_src = 'https://i03piccdn.sogoucdn.com/e931046dcf5606d8'
img_data = requests.get(img_src,headers=headers).content #content返回bytes类型的数据
with open('./123.jpg','wb') as fp:
    fp.write(img_data)
  • urllib
from urllib import request
img_src = 'https://i03piccdn.sogoucdn.com/e931046dcf5606d8'
request.urlretrieve(img_src,'./456.jpg')

bs4 的使用

安装