Selenium 爬取动态页面

28 阅读1分钟

使用 python 爬取动态页面

借助 Selenium 模块,可以模拟浏览器操作,实现动态页面的爬取。

直接上代码:

from selenium import webdriver
from selenium.webdriver.common.by import By

# 初始化浏览器
driver = webdriver.Chrome()
# 打开网页
driver.get("https://book.sina.com.cn/excerpt/")
# 等待页面加载
driver.implicitly_wait(3)
print() # 打印空行分割一下

# 获取网页源代码或某个元素的内容
title = driver.title
print(title + '\n')

# 通过 css 选择器进行查找
lists  = driver.find_elements(By.CSS_SELECTOR, '#J_BookRankList > li')

for item in lists:
    a = item.find_element(By.CSS_SELECTOR, '.rank-name')
    print(a.text)

# 关闭浏览器
driver.quit()

有了案例后基本就能干活了,再给几个参考链接: