爬虫用到了几个模块,cheerio,iconv,async,request
cheerio是一个有着jQuery类似语法的文档解析模块,你可以简单理解为nodejs中的jQuery。
iconv是用于解析gbk编码的中文网站
request模块是一个HTTP客户端请求模块,使用非常简单,除支持一般http请求外,还可以更复杂的http请求,如:https请求、请示重定向、数据流转接、form表单提交、HTTP认证、OAuth登录、自定义HTTP header等。
async是一个异步流程控制模块,在这里我们主要用到async的mapLimit(coll, limit, iteratee, callback)
javascript 代码
JavaScript 5 1async.mapLimit(urls, 10, function (url, callback) { 2
fetchUrl(url, callback, id) 3
}, function (err, results) { 4
//TODO 5
})
第一个参数coll是一个数组,保存了请求的url,第二个参数limit是控制并发数,第三个参数iteratee接受一个回调函数,该回调函数的第一个参数就是单独一个url,第二个参数也是一个回调函数,这个回调函数执行后会把结果(此处是每一个地址中的图片地址)保存到第四个参数callback的results中,results是一个数组,保存了所有内容。
代码:
javascript 代码
//引入模块 2
const http = require('http') 3
const fs = require('fs') 4
const cheerio = require('cheerio') 5
const iconv = require('iconv-lite') 6
const request = require('request') 7
const async = require('async'); 8
9
const urlList = [] //地址列表 10
var id = 0 //计数器 11
12
//由于煎蛋妹子图的地址格式一样,所以只要拼接地址就好了 13
for (var i = 193; i > 190; i--) { 14
urlList.push('http://jandan.net/ooxx/page-' + i) 15
} 16
17
function getPages(url, callback) { 18
http.get(url, res => { 19
const html = [] 20
res.on('data', (chunk) => { 21
html.push(chunk) 22
}) 23
res.on('end', () => { 24
//如果网站是gbk编码,可以转成utf8,否则可能乱码 25
const html1 = iconv.decode(Buffer.concat(html), 'utf8') 26
//cheerio模块用来一jQuery的语法解析爬取的页面 27
const $ = cheerio.load(html1, { 28
decodeEntities: false 29
}) 30
const link = [] 31
$('.view_img_link').each((i, v) => {
无图言吊,上张截图好了
ps:其实还写过某porn网站的爬虫,就是不太好意思放上来
