也不知到怎么搞 ~~直接上代码哈哈哈哈~~~
第一步:新建netflixscrape.js文件
第二步:引入关键依赖 基于npm包管理下载puppeteer
npm install puppeteer --save
接下来我们要在netflixscrape.js写入爬虫程序:
//引入puppeteer
const puppeteer = require('puppeteer')
//引入fs 有write/read等功能
const fs = require('fs')
//爬虫逻辑
async function scrape (url) {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url)
var movies = await page.evaluate(() => {
//所爬取的是网页p标签
var titlesList = document.querySelectorAll('p');
var movieArr = [];
for (var i = 0; i < titlesList.length; i++) {
movieArr[i] = {
title: titlesList[i].innerText.trim(),
//利用nextElementSibling去除爬取返回的标签
// summary: titlesList[i].nextElementSibling.innerText.trim(),
};
}
return movieArr;
})
//利用fs 将返回去除标签的内容写到Json里
fs.writeFile("./netflixscrape.json", JSON.stringify(movies, null, 3), (err) => {
if (err) {
console.error(err);
return;
};
console.log("Great Success");
});
browser.close()
}
scrape('https://juejin.cn/post/6844903877909676045')
大佬多多指点 ~~~菜鸟摸鱼的时候顺手写了一个不是很成熟 的小东西 ~希望能够得到指点~~继续加油