使用 python 爬取动态页面
借助 Selenium 模块,可以模拟浏览器操作,实现动态页面的爬取。
直接上代码:
from selenium import webdriver
from selenium.webdriver.common.by import By
# 初始化浏览器
driver = webdriver.Chrome()
# 打开网页
driver.get("https://book.sina.com.cn/excerpt/")
# 等待页面加载
driver.implicitly_wait(3)
print() # 打印空行分割一下
# 获取网页源代码或某个元素的内容
title = driver.title
print(title + '\n')
# 通过 css 选择器进行查找
lists = driver.find_elements(By.CSS_SELECTOR, '#J_BookRankList > li')
for item in lists:
a = item.find_element(By.CSS_SELECTOR, '.rank-name')
print(a.text)
# 关闭浏览器
driver.quit()
有了案例后基本就能干活了,再给几个参考链接: