Puppeteer简介作用与依赖安装 Puppeteer是一个由Google Chrome团队开发的Node.js库，它

作用与依赖安装

Puppeteer是一个由Google Chrome团队开发的Node.js库，它提供了一个高级API，可以控制Chrome或Chromium浏览器的操作，实现类似于人类对浏览器的操作，比如打开网页、输入文字、点击按钮等等。使用Puppeteer可以方便地进行自动化测试、爬虫、网页截图等操作。

网页截图或者生成 PDF
爬取 SPA 或 SSR 网站
UI 自动化测试，模拟表单提交，键盘输入，点击等行为
捕获网站的 timeline trace，用来帮助分析性能问题。
创建一个最新的自动化测试环境，使用最新的 js 和最新的 Chrome 浏览器运行测试用例
测试 Chrome 扩展程序

依赖安装

当你安装 Puppeteer 时，它会下载最新版本的Chromium（~170MB Mac，~282MB Linux，~280MB Win），以保证可以使用 API。

pnpm add puppeteer

用法与API介绍

初识Puppeteer - 手把手教学 - 掘金 (juejin.cn)

创建一个浏览器实例

// { headless: 'new' } 是最新的无头模式启用方式，原本方式为 { headless: true }
const browser = await puppeteer.launch({ headless: 'new' })
//   const browser = await puppeteer.launch({ headless: true })

什么是无头模式？

在无界面的环境中运行 Chrome

创建一个标签页实例

const page = await browser.newPage()

使用拦截器

// 启用请求拦截
  await page.setRequestInterception(true)
  page.on('request', interceptedRequest => {
    // if (
    //   interceptedRequest.url().endsWith('.png') ||
    //   interceptedRequest.url().endsWith('.jpg')
    // )
    //   interceptedRequest.abort()
    // else interceptedRequest.continue()
    // 2. 忽略不必要的请求，如图片，视频样式等等
    const whitelist = ['document', 'script', 'xhr', 'fetch']
    if (!whitelist.includes(interceptedRequest.resourceType())) {
      // 中断请求
      return interceptedRequest.abort()
    }
    // 3. 其它请求正常继续
    interceptedRequest.continue()
  })

打开指定url并获取响应内容

const url = 'https://item.jd.com/100058934613.html'
const response = await page.goto(url, {
    timeout: 30 * 1000,
    waitUntil: 'networkidle2',
  })
  const text = await response.text()