用nodejs写个煎蛋妹子图爬虫爬虫用到了几个模块，cheerio，iconv，async，requestcheerio

爬虫用到了几个模块，cheerio，iconv，async，request

cheerio是一个有着jQuery类似语法的文档解析模块，你可以简单理解为nodejs中的jQuery。

iconv是用于解析gbk编码的中文网站

request模块是一个HTTP客户端请求模块，使用非常简单，除支持一般http请求外，还可以更复杂的http请求，如：https请求、请示重定向、数据流转接、form表单提交、HTTP认证、OAuth登录、自定义HTTP header等。

async是一个异步流程控制模块，在这里我们主要用到async的mapLimit(coll, limit, iteratee, callback)

javascript 代码

JavaScript 5 1

async.mapLimit(urls, 10, function (url, callback) {

        fetchUrl(url, callback, id)

      }, function (err, results) {

        //TODO

})

第一个参数coll是一个数组，保存了请求的url，第二个参数limit是控制并发数，第三个参数iteratee接受一个回调函数，该回调函数的第一个参数就是单独一个url，第二个参数也是一个回调函数，这个回调函数执行后会把结果（此处是每一个地址中的图片地址）保存到第四个参数callback的results中，results是一个数组，保存了所有内容。

代码：
javascript 代码

JavaScript 83 1

//引入模块

const http = require('http')

const fs = require('fs')

const cheerio = require('cheerio')

const iconv = require('iconv-lite')

const request = require('request')

const async = require('async');

const urlList = [] //地址列表

var id = 0 //计数器

//由于煎蛋妹子图的地址格式一样，所以只要拼接地址就好了

for (var i = 193; i > 190; i--) {

  urlList.push('http://jandan.net/ooxx/page-' + i)

function getPages(url, callback) {

  http.get(url, res => {

    const html = []

    res.on('data', (chunk) => {

      html.push(chunk)

})

    res.on('end', () => {

    //如果网站是gbk编码，可以转成utf8，否则可能乱码

      const html1 = iconv.decode(Buffer.concat(html), 'utf8')

      //cheerio模块用来一jQuery的语法解析爬取的页面

      const $ = cheerio.load(html1, {

        decodeEntities: false

})

      const link = []

      $('.view_img_link').each((i, v) => {

无图言吊，上张截图好了

用nodejs写个煎蛋妹子图爬虫

ps：其实还写过某porn网站的爬虫，就是不太好意思放上来