动态HTML
爬虫跟反爬虫
动态HTML介绍
- JavaScrapt
- jQuery
- Ajax
- DHTML
- Python采集动态数据
- 从JavaScript代码入手采集
- Python低三方运行JavaScript,直接采集你在浏览器看到的页面
Selenium + PhantomJS
-
Selenium:web自动化测试的工具
- 自动加载页面
- 获取数据
- 截屏
- 安装:pip install selenium==2.48.0
- 官网:selenium-python.readthedocs.io/index.html
-
PhantomJS(幽灵)
- 基于Webkit的无界面的浏览器
- 官网:phantomjs.org/download.ht…
-
selenium库有一个WebDrive的API
-
WebDrive可以跟页面上的元素进行各种交互,用它可以进行爬取
-
chrome + chromedrive
- 下载安装Chrome:下载+安装
- 下载安装chromedrive
-
selenium操作主要分两大类:
- 得到UI元素
- 基于UI元素操作的模拟:
- 单击
- 右键
- 拖拽
- 输入
- 可以通过导入ActionsChains类来做到