本教程的目的是向你介绍Selenium,并展示安装Selenium和webdriver用于浏览器自动化的过程。在这篇文章中,我们假设你的机器上已经安装了python。
需要注意的是,浏览器自动化和Web Scrapping完全是白帽子的做法,而且Web浏览器本身也正式支持它,为自动化和测试提供了Web驱动,只是使用代码打开的浏览器窗口被标记为 "此浏览器正被自动化测试软件控制"
什么是Selenium?
Selenium是一个开源项目,它提供了大量的工具来实现网络浏览器的自动化。它也被用来创建网络刮削器,以从网页上获取(刮削)所需的数据。
使用Python Selenium可以完成的一些任务是。
- 自动执行浏览器任务,如登录、加入会议、滚动、冲浪等。
- 从网站/网页中获取文本、excel文件、代码等数据。
浏览器自动化的一个重要组成部分是Webdriver。Webdriver是一个API的集合,使得与浏览器的交互变得容易。将Selenium和Webdriver结合起来,可以非常容易地实现网络的无聊任务的自动化。
安装Selenium
为了开始设置我们的计算机进行浏览器自动化和网络搜刮,我们需要先安装一些工具和库。
1.安装Selenium
首先,我们要用pip安装selenium包。使用pip install package_name命令来安装任何python包是非常容易的。
打开你的电脑的命令提示符,输入以下命令。你也可以在你的系统或IDE的终端运行该命令。
pip install selenium
它将在我们的机器上安装最新版本的selenium。
2.安装Selenium Webdriver
设置的第二个任务是根据我们的浏览器安装webdriver,我们打算用它来实现自动化。
在安装webdriver时,我们需要确保它与我们的网络浏览器有相同的版本。每个浏览器都有自己的webdriver,由其母公司维护。
下面是下载流行网络浏览器webdriver的链接--Mozilla Firefox、Google Chrome和Microsoft Edge。
下载Mozilla Firefox Webdriver:这里
下载Google Chrome Webdriver:这里
下载Microsoft Webdriver:这里
在下载了selenium和所需的webdriver之后,你就可以编写python脚本来实现Web浏览器的自动化。
3.在Python中导入Selenium
由于我们已经下载了所需的工具和库,作为最后一步,我们需要导入所需的东西,如下所示。
注意:我们需要向webdriver方法传递已安装的web驱动文件的位置(保存在我们的计算机上)。
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome('C://software/chromedriver.exe')
提示:我们可以通过声明(保存)下载的web驱动文件的位置作为一个环境变量来跳过这一步,而不是每次都把位置作为一个参数在每段代码中传递。