爬虫笔记

245 阅读1分钟

pip install requests

 pip install selenium

谷歌浏览器安装ChromeDriver(需要翻墙)查看谷歌浏览器版本号后进入npm.taobao.org/mirrors/chr… 下载后将exe文件保存在安装的python路径的scripts下 如:C:\Users\mayn\AppData\Local\Programs\Python\Python38\Scripts

pip install aiohttp

pip install cchardet 

pip install aiodns 

pip install lxml 

pip install beautifulsoup4 

pip install pyquery 

安装好需要用的包之后引入之前安装好的包

import urllib.request
import os
from lxml import etree
import time
# 请求头添加 UA
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
'referer': '放要爬取的网站地址'例如:https://search.jd.com/
}
# 保存路径
save_path = '要存放在本地的路径'
# 创建文件夹
def createFile(file_path):
if os.path.exists(file_path) is False:
os.makedirs(file_path)
# 切换路径至上面创建的文件夹
os.chdir(file_path)
# 抓取外页数据
def get_outer(outer_url):
req = urllib.request.Request(url=outer_url, headers=headers, method='GET')
resp = urllib.request.urlopen(req)
html = etree.HTML(resp.read().decode('utf-8'))
# 获取文件夹名称列表
title_list = html.xpath('.//em/text()')这里要注意要爬取的数据在html里面的结构
print('当前页面' + outer_url + ', 共计爬取' + str(len(title_list)) + '个文件夹')
# print(title_list)
for i in range(len(title_list)):
print(title_list[i])
def main():
url = 'https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA%E5%A3%B3&wq=%E6%89%8B%E6%9C%BA%E5%A3%B3&page='(这里注意要爬取网站的规律)
num = 1
for i in range(1, 5):
get_outer(url + str(num))
num = num + 2
if __name__ == '__main__':
main()

大致就是这样,然后接下来学习把得到的数据集中处理,放入表格或数据库。