无聊时间 node简易小爬虫~··

276 阅读1分钟

也不知到怎么搞  ~~直接上代码哈哈哈哈~~~

第一步:新建netflixscrape.js文件

第二步:引入关键依赖 基于npm包管理下载puppeteer

npm install puppeteer --save

接下来我们要在netflixscrape.js写入爬虫程序:

//引入puppeteer

const puppeteer = require('puppeteer')
//引入fs  有write/read等功能
const fs = require('fs')

//爬虫逻辑

async function scrape (url) {
const browser = await puppeteer.launch();
const page = await browser.newPage();
await page.goto(url)
var movies = await page.evaluate(() => {
//所爬取的是网页p标签
var titlesList = document.querySelectorAll('p');
var movieArr = [];
for (var i = 0; i < titlesList.length; i++) {
movieArr[i] = {
title: titlesList[i].innerText.trim(),
//利用nextElementSibling去除爬取返回的标签 
// summary: titlesList[i].nextElementSibling.innerText.trim(),
};
}
return movieArr;
})
//利用fs 将返回去除标签的内容写到Json里
fs.writeFile("./netflixscrape.json", JSON.stringify(movies, null, 3), (err) => {
if (err) {
console.error(err);
return;
};
console.log("Great Success");
});
browser.close()
}
scrape('https://juejin.cn/post/6844903877909676045')

大佬多多指点  ~~~菜鸟摸鱼的时候顺手写了一个不是很成熟 的小东西  ~希望能够得到指点~~继续加油