从零起步-系统入门Python爬虫工程师

590 阅读3分钟

一:python相关环境的安装

1 linux中Python环境的安装

1.	安装系统依赖包
sudo apt-get install libssl1.0.0 libssl-dev tcl tk sqlite sqlite3 libbz2-1.0 libbz2-dev libexpat1 libexpat1-dev libgdbm3 libgdbm-dev libreadline5 libreadline6 libreadline-dev libreadline6-dev libsqlite0 libsqlite0-dev libsqlite3-0 libsqlite3-dev openssl
上面的依赖包是ubuntu的安装源的包名,不同版本的linux包名可能不一样

2.	下载源码包并解压
wget https://www.python.org/ftp/python/3.6.8/Python-3.6.8.tgz tar 
-xzvf Python-3.6.8.tgz -C /tmp 
cd /tmp/Python-3.6.8/

3.把Python3.6安装到 /usr/local 目录
./configure --prefix=/usr/local
make
make altinstall

上面操作执行完成以后就可以执行:
python3.6
就可以进入python的交互环境了
注:
很多linux操作系统会默认安装python和python3,大家可以在终端中输入python或者python3就能查看是否默认安装了py2和py3的版本,如果没有安装可以使用 
ln -s /usr/local/bin/python3.6 /usr/bin/python 
或者 
ln -s /usr/local/bin/python3.6 /usr/bin/python3 
生成python或者python3直接运行的python3.6的软连接


4.	安装pip
python3对应的pip很多linux操作系统没有默认安装, 可以通过
sudo apt-get install python3-pip
安装python3的pip
安装完成以后可以终端中输入: pip3 查看是否安装成功
后续的所有的关于pip中安装的命令,这里都使用 pip3 install XXX

2 Mac中安装Python环境

1.先安装brew
ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”
2.然后安装python3.6
brew install python3.6

3 linux中mysql和navicate的安装和配置

1. 安装mysql

1. 安装mysql
 
    sudo apt-get install mysql-server
    
    中途会出现输入密码的页面:
    这里输入的密码一定要记住!!
 
    后面mysql登录需要用到这个密码
 
2. 验证mysql安装是否成功
 
    在终端中输入:
        
        mysql -uroot -p
        
    回车后会让你输入密码,这里就是刚才填写的密码
出现上面代码登录成功,如果想添加用户可以在上面的页面中输入:
 
 GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;
 
GRANT ALL PRIVILEGES ON *.* TO 'root'@'localhost' IDENTIFIED BY 'root' WITH GRANT OPTION;
 
flush privileges; 
 
上面命令会创建一个用户名为root,密码为root的用户

2. 安装navicat

直接到这里下载navicat for linux版本
 
    wget http://download.navicat.com/download/navicat121_premium_cs_x64.tar.gz
    
解压:
 
    tar -xzvf navicat121_premium_cs_x64.tar.gz -C ./
    
进入目录:
    
    cd navicat121_premium_cs_x64/
 
解决中文乱码
 
    第一次使用navicat一般会乱码
 
    解决:打开start_navicat文件, 可以用 gedit 打开
 
    将export LANG="en_US.UTF-8"改为export LANG="zh_CN.UTF-8",保存,关闭即可。
 
运行:

4 Mac中mysql和navicate的安装和配置

1. 安装和配置mysql
1. brew install mysql
    

#启动
2. brew services start mysql

#进入 mysql
3. mysql -u root -p
初次进入的时候会让你输入密码,这时候直接回车进入

#进入mysql后, 添加所有ip可以访问方式
GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'root' WITH GRANT OPTION;

GRANT ALL PRIVILEGES ON *.* TO 'root'@'localhost' IDENTIFIED BY 'root' WITH GRANT OPTION;

flush privileges; 

上面命令会创建一个用户名为root,密码为root的用户
2. 安装和配置navicat
1. 下载下面的dmg文件:

    wget http://download.navicat.com/download/navicat121_premium_cs.dmg
    
2. 下载完成以后会有一个dmg文件
直接双击dmg文件, mac会让你将图标拉到applications文件夹下面,照做就行了

3. ctrl+空格 搜索navicat打开就行了

5 linux中Python虚拟环境的安装和配置

1.	安装virtualenv和virtualenvwrapper
pip3 install virtualenv
pip3 install virtualenvwrapper

2.	配置virtualenvwrapper
sudo apt-get install python-dev

3.	编辑.bashrc文件
vim ~/.bashrc 进入bashrc文件进行编辑,在文件最后输入
export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh
说明:
1. VIRTUALENVWRAPPER_PYTHON 代表的是新建虚拟环境使用的默认的python版本,这里需要指向可执行的python文件
2. export WORKON_HOME 表示使用mkvirtualenv新建的虚拟环境保存的虚拟环境的默认目录
3. source /usr/local/bin/virtualenvwrapper.sh 表示激活virtualwrapper, 所以这里的virtualenvwrapper.sh文件是通过pip install virtualenvwrapper安装的包会安装这个文件
注意: virtualenvwrapper.sh文件的路径在不同的电脑上可能不一样,可以先通过
        sudo find / -name virtualenvwrapper.sh 查询到virtualenvwrapper.sh 文件的路径
然后退出vim

4.	重新加载.bashrc文件
在终端中输入:
source ~/.bashrc

5.	验证virtualenvwrapper
重新打开终端,输入:
 mkvirtualenv 即可看到是否成功


6 Mac中Python虚拟环境的安装和配置

1.	新建存放虚拟环境的目录
cd ~
mkdir .virtualenvs
2.	安装virtualenvwrapper
pip3.6 install virtualenvwrapper
3.	配置virtualenvwrapper
vim ~/.bash_profile编辑文件写入下面内容:
 VIRTUALENVWRAPPER_PYTHON=/usr/local/bin/python3.6
 export WORKON_HOME=$HOME/.virtualenvs
 source /usr/local/bin/virtualenvwrapper.sh
 
 说明:
      1. VIRTUALENVWRAPPER_PYTHON 代表的是新建虚拟环境使用的默认的python版本,这里需要指向可执行的python文件
      2. export WORKON_HOME 表示使用mkvirtualenv新建的虚拟环境保存的虚拟环境的默认目录
      3. source /usr/local/bin/virtualenvwrapper.sh 表示激活virtualwrapper, 所以这里的virtualenvwrapper.sh文件是通过pip install virtualenvwrapper安装的包会安装这个文件

 注意: virtualenvwrapper.sh文件的路径在不同的电脑上可能不一样,可以先通过
         sudo find / -name virtualenvwrapper.sh 查询到virtualenvwrapper.sh 文件的路径
4.	重新加载bash_profile文件
退出vim后在终端输入:
source ~/.bash_profile
5.	验证是否安装成功,终端中输入:
mkvirtualenv
只要这个命令不报这个命令不存在即是安装成功


二:彻底了解网络爬虫

1爬虫能做什么

什么是爬虫

爬虫就是一个探测机器,模拟人去各个网站上溜达,看见需要的数据就背回来,就像是一只虫子不知疲倦的爬来爬去

爬虫能做什么

1  	采集网络数据
2 自动化测试
3 做一些脱离手动的操作(抢票,微信聊天助手-itcath)
4 灰色产业(薅羊毛,发动网络攻击,做水军)

数据能做什么

1 聚合产品(新闻网站,早期的今日头条)
2 搜索引擎(百度,谷歌,必应)
3 数据分析,人工智能的元数据
4 特定领域的数据服务(二手车估价,天气预报,团购,去哪儿网等等)

2 学好爬虫需要的知识

image-20200816012452897

![image-20200816013139400](F:\爬虫学习路线\1从零起步 系统入门Python爬虫工程师\img\2.png)

3 如何看待爬虫

1 爬虫不应该毫无节制
2 robots协议
3 法律问题
4 爬虫不能抓取到页面上看不到的数据,爬虫的目的是为了防止重复的劳动
5 目标网站会乖乖的让我们去爬数据吗?涉及到反扒