爬虫相关库的安装

176 阅读3分钟
原文链接: zhuanlan.zhihu.com

本文讲述爬虫相关库在windows10系统下的安装,主要分为如下几个部分

  1. 使用pip可以简单安装的库,包括
requests 
beautifulsoup4   lxml   pyquery
selenium
pymysql   pymongo   redis

2.不能用命令安装的两个工具chromedriver 和 phantomJS

3.安装数据库

pip安装

这部分库安装方法比较简单,直接用pip安装即可

比如,就在命令行下输入

pip install requests

下面这些库都可以这样安装

requests 
beautifulsoup4   lxml   pyquery
selenium
pymysql   pymongo   redis

只要把requests换成特定名称即可

如果安装过程比较慢的话,可以到网站上先下载whl文件再安装。比如lxml,就搜 lxml pypi ,找到对应版本下载到本地,再用wheel安装,用wheel安装的方法可以看我之前写的一篇文章,里面有一部分讲python中库的主要安装方法。

chromedriver的安装

chromedriver的安装分为3个步骤

1.查看现在使用的chrome版本,通过设置-左上角设置按钮-关于chrome 查看,这里会显示你的chrome是哪个版本的,32位还是64位的,如下图

说明我的就是63.0的64位版本的。

2.到chromedriver镜像安装网站上寻找合适的chromedriver版本下载,我现在能看到的有2.0-2.35的chromedriver版本,注意网站中的排列顺序不是真正版本迭代的顺序。比如点击2.35/得到这样的界面

这里可以选择安装哪个系统的版本。看一个chromedriver版本支持哪些chrome版本,需要点击notes.txt,就能看到比如

----------ChromeDriver v2.35 (2018-01-10)----------
Supports Chrome v62-64

即2.35的chromedriver版本支持62 63 64版本的chrome,所以我就可以下载这个2.35版本的chrome。虽然我的chrome是64位的,但是下载32位的chromedriver也可以正常运行。

3.下载安装包之后解压,会得到一个chromedriver.exe文件,这个文件是需要配置环境变量的。但是因为它只有一个文件,所以我们不妨将文件拖到一个已经配置过的环境中,比如Python35\Scripts,这样就大功告成了

PhantomJS的安装

进入PhantoJS官网,下载对应操作系统的安装包,解压之后找到phantomjs.exe文件,然后将这个文件配置到环境变量里即可,可以先把这个文件夹放到一个固定的位置再配置环境变量,配置环境变量是非常基础的内容,网上有大量的教程,这里就不赘述了。也可看我之前写的 一篇文章,可以更好地理解环境变量和CMD。

数据库的安装

有时存储数据需要使用数据库,所以首先要安装配置好数据库,之后才能用python连接数据库。

MySQL和MongoDB两个数据库我之前都有些文章介绍过,详细安装过程就看下面两篇文章

专栏信息

专栏主页:python编程

专栏目录:目录

爬虫目录:爬虫系列目录

版本说明:软件及包版本说明