Python爬虫入门 ~ selenium安装使用

131 阅读1分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第23天,点击查看活动详情

selenium

简介

  • Selenium是一个用于Web应用程序测试的工具
  • Selenium测试直接运行在浏览器中,就像真正的用户在操作一样
  • 支持通过各种driver(FirfoxDriver, IternetExplorerDriver, OperaDriver, ChromeDriver)驱动真实浏览器完成测试
  • Selenium也是支持无界面浏览器操作的

优势

Selenium能够模拟浏览器功能,自动执行网页中的JS代码,实现动态加载。

安装

1. 查看浏览器版本

- 谷歌浏览器右上角-> 帮助 -> 关于

2. 驱动版本映射

chromedriver.storage.googleapis.com/index.html

3. 安装selenium

pip install selenium

image.png

基本使用

1. 导入

from selenium import webdriver
from selenium.webdriver.chrome.service import Service

2. 创建浏览器操作对象

path = 'chromedriver.exe'
browser = webdriver.Chrome(service=Service(path))

3. 访问网址

url = 要访问的网站
browser.get(url)

运行之后可以看到它会自动帮我们打开浏览器页面

image.png

如果有遇到以下情况的,可以尝试添加一些浏览器参数来避开谷歌浏览器的检测。

image.png

options = webdriver.ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation'])

上面的都解决完成了,但是当页面加载完成之后浏览器自动闪退的话(程序运行完毕,相关进程都结束),还可以添加以下参数防止浏览器关闭。

options.add_experimental_option('detach', True)

image.png

到了这里,我们的初始化工作算是已经完成了。

4. 获取页面源码

页面已经可以正常显示了,那么我们再看看如何拿到服务器响应回来的源代码吧。

response = browser.page_source
print(response)

image.png