实验一个node小爬虫

176 阅读1分钟

server.js

const express = require('express');
const superagent = require('superagent'); // 第三方客户端请求代理模块
const cheerio = require('cheerio'); // 相当于node中的jquery
const app = express();

app.get('/getUrlTitle', (req, res, next) => {
/* 根据url,解析不同的标题名称*/
  console.log('req==>thomas', req?.originalUrl);
  const uri = req?.originalUrl?.split('?')[1] ?? '';
  const url = uri?.split('=')[1] ?? '';
  console.log('req==>url', url);
  superagent.get(url).end((err, sres) => {
    if (err) {
      return next(err);
    }
    let $ = cheerio.load(sres.text);
    console.log("$('title')", $('title').html());
    const title = $('title').html();
    if (title) {
      res.send(title);
    } else {
      res.send('暂时识别不出来');
    }
  });
});

app.listen(5000, (req, res) => {
  console.log('running 5000');
});

启动服务

node server

浏览器输入get请求地址,url后面接任意链接,就可以去解析了 1641983792(1).png