爬虫 ——数据解析——bs4

164 阅读1分钟

安装

pip install bs4
pip install lxml

使用

from bs4 import BeautifulSoup
fp = open('','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
#标签定位
soup.tagName:可以将第一次出现的该标签定位到
print(soup.div)
属性定位:find(tagName,attrName='attrValue')
print(soup.find('div'..,class_='song'))
print(soup.findAll('div',class_='song'))
选择器定位
print(soup.select('#feng'))
层级选择器:>表示一个层级,空格可以表示多个层级
print(soup.select('.tang li > a'))

取文本
a_tag = soup.select('#feng')[0]
print(a_tag.string) #取直系文本

div_tag = soup.select('.song')[0]
print(div_tag.text) #取所有文本
#取属性
a_tag = soup.select('#feng')[0]
print(a_tag)
print(a_tag['href'])