爬虫笔记pipinstallrequests pipinstallselenium谷歌浏览器安装ChromeDriver

pip install requests

pip install selenium

谷歌浏览器安装ChromeDriver（需要翻墙）查看谷歌浏览器版本号后进入npm.taobao.org/mirrors/chr… 下载后将exe文件保存在安装的python路径的scripts下如:C:\Users\mayn\AppData\Local\Programs\Python\Python38\Scripts

pip install aiohttp

pip install cchardet

pip install aiodns

pip install lxml

pip install beautifulsoup4

pip install pyquery

安装好需要用的包之后引入之前安装好的包

import urllib.request

import os

from lxml import etree

import time

# 请求头添加 UA

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',

'referer': '放要爬取的网站地址'例如：https://search.jd.com/

}

# 保存路径

save_path = '要存放在本地的路径'

# 创建文件夹

def createFile(file_path):

if os.path.exists(file_path) is False:

os.makedirs(file_path)

# 切换路径至上面创建的文件夹

os.chdir(file_path)

# 抓取外页数据

def get_outer(outer_url):

req = urllib.request.Request(url=outer_url, headers=headers, method='GET')

resp = urllib.request.urlopen(req)

html = etree.HTML(resp.read().decode('utf-8'))

# 获取文件夹名称列表

title_list = html.xpath('.//em/text()')这里要注意要爬取的数据在html里面的结构

print('当前页面' + outer_url + ', 共计爬取' + str(len(title_list)) + '个文件夹')

# print(title_list)

for i in range(len(title_list)):

print(title_list[i])

def main():

url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA%E5%A3%B3&wq=%E6%89%8B%E6%9C%BA%E5%A3%B3&page='（这里注意要爬取网站的规律）

num = 1

for i in range(1, 5):

get_outer(url + str(num))

num = num + 2

if __name__ == '__main__':

main()

大致就是这样，然后接下来学习把得到的数据集中处理，放入表格或数据库。