#爬虫库
- urllib
- re
- requests :pip install requests
- selenium:自动化测试,js渲染的网页,这是使用requests无法请求,需要selenium;需要下载chromdriver,移动到配置好的环境变量路径中:这之后使用selenium可以打开chrome浏览器。这个需要浏览器界面
form selenium import webdriver driver = webdriver.Chrome()#会自动打开浏览器 dirver.ger('www.baidu.com')#此时chrome浏览器会自动访问百度 driver.page_source()#可以获取到网页的源码
- phantomjs:不需要界面,无界面浏览器,后台静默运行。下载后需要把EXE文件配置到环境遍变量
javafrom selenium import wendriver driver = wendriver.PhantomJS() driver,ger('www.baidu.com') driver.page_source();
- lxml 网页解析。官网安装或者先下载whl文件,再使用pip安装:pip install whl文件名
- beautifulsoup,依赖lxml库,主要用于网页解析
from bs4 import BeautifulSoup soup = BeautifulSoup('<html>','lxml')#解析html
- pyquery:网页解析,pip install pyquery
from pyquery import PyQuery as pq doc = pq('') doc = pq('hello') result = doc('html').test() result#结果为hello
#存储库
- pymysql:操作MySQL
import pymysql conn = pymysql.connect(host='',user='',password='',端口,db=‘MySQL’) cursor=conn.cursor() cursor.execute('sql语句') cuesor.fetchone()#获取一条记录
- pymongo:操作MongoDB,菲关系型数据库
import pymongo client = pymongo.MngoClient('localhost') db = client('newestdb') db.insert('name':'cyb') db['table'] = find_one(('name':'cyb'))#数据的查询
- redis库
import redis r = redis.Redis('localhost','6379') r.set('name':'bob') r.get('name')
- flask web库,代理设置:代理获取,代理存储。
- django:web服务器框架
- jupyter :python在线调试
资料分享
欢迎关注个人公众号【菜鸟名企梦】,公众号专注:互联网求职面经、java、python、爬虫、大数据等技术分享**:
公众号**菜鸟名企梦
后台发送“csdn”即可免费领取【csdn】和【百度文库】下载服务;
公众号菜鸟名企梦
后台发送“资料”:即可领取5T精品学习资料**、java面试考点和java面经总结,以及几十个java、大数据项目,资料很全,你想找的几乎都有