Spider-3

171 阅读1分钟

动态HTML

爬虫跟反爬虫

动态HTML介绍

  • JavaScrapt
  • jQuery
  • Ajax
  • DHTML
  • Python采集动态数据
    • 从JavaScript代码入手采集
    • Python低三方运行JavaScript,直接采集你在浏览器看到的页面

Selenium + PhantomJS

  • Selenium:web自动化测试的工具

  • PhantomJS(幽灵)

  • selenium库有一个WebDrive的API

  • WebDrive可以跟页面上的元素进行各种交互,用它可以进行爬取

  • chrome + chromedrive

    • 下载安装Chrome:下载+安装
    • 下载安装chromedrive
  • selenium操作主要分两大类:

    • 得到UI元素
    • 基于UI元素操作的模拟:
      • 单击
      • 右键
      • 拖拽
      • 输入
      • 可以通过导入ActionsChains类来做到