无聊时间 node简易小爬虫~··也不知到怎么搞 ~~直接上代码哈哈哈哈~~~第一步：新建netflixscrape.j

也不知到怎么搞 ~~直接上代码哈哈哈哈~~~

第一步：新建netflixscrape.js文件

第二步：引入关键依赖基于npm包管理下载puppeteer

npm install puppeteer --save

接下来我们要在netflixscrape.js写入爬虫程序:

//引入puppeteer

const puppeteer = require('puppeteer')

//引入fs 有write/read等功能

const fs = require('fs')

//爬虫逻辑

async function scrape (url) {

const browser = await puppeteer.launch();

const page = await browser.newPage();

await page.goto(url)

var movies = await page.evaluate(() => {

//所爬取的是网页p标签

var titlesList = document.querySelectorAll('p');

var movieArr = [];

for (var i = 0; i < titlesList.length; i++) {

movieArr[i] = {

title: titlesList[i].innerText.trim(),

//利用nextElementSibling去除爬取返回的标签

// summary: titlesList[i].nextElementSibling.innerText.trim(),

};

}

return movieArr;

})

//利用fs 将返回去除标签的内容写到Json里

fs.writeFile("./netflixscrape.json", JSON.stringify(movies, null, 3), (err) => {

if (err) {

console.error(err);

return;

};

console.log("Great Success");

});

browser.close()

}

scrape('https://juejin.cn/post/6844903877909676045')

大佬多多指点 ~~~菜鸟摸鱼的时候顺手写了一个不是很成熟的小东西 ~希望能够得到指点~~继续加油