一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第17天,点击查看活动详情。
Hi, 大家好。我是新人,程序员库里。
今天给大家分享node爬虫利器之superagent
什么是SuperAgent
- superagent它是一个强大并且可读性很好的轻量级ajaxAPI,是一个关于HTTP方面的一个库,而且它可以将链式写法玩的出神入化。
var superagent = require('superagent');
superagent
.post('/api')
.send({
'key': 'value'
})
.set('header_key', 'header_value')
.end(function(err, res) {
if (err) {
//do something
} else {
//do something
}
})
安装SuperAgent
npm install superagent --save
开始
- 一般来说,我们常有的HTTP请求包括GET POST DELETE HEAD PUT 这些。在不同的应用场景,在发送请求的时候,会选择一个正确的请求方式,然后通过.end()函数来得到请求后的返回结果。
superagent
.get('/api') //这里的URL也可以是绝对路径
.end(function(req,res){
//do something
})
// 等价于==>
superagent('GET','/api')//这里的URL也可以是绝对路径
.end(function(req,res){
//do something
})
设置请求头
-
这一点在写爬虫的时候十分的有用,因为有些网站可能设置了一些限制条件,比如它会去匹配你的请求头里面的一些字段, 像User-Agent Referer等,如果你没有设置这些请求头的话,可能就抓取不到数据咯~
-
SuperAgent里面设置请求头很简单,通过使用set()方法就可以设置了,有两种方式
superagent .get('/api') .set('Referer','https://www.google.com') .set('Accept','image/webp,image/*,*/*;q=0.8') .end(function(req,res){ //do something })
superagent .get('/api') .set({ 'Referer','https://www.google.com', 'Accept','image/webp,image/*,*/*;q=0.8' }) .end(function(req,res){ //do something })
-
-
放在一起设置
-
单个单个的设置
-
-
GET请求方式
//接下来所形成的URL为/api?name=An&age=20&sex=male //第一种 superagent .get(/api) .query({name:'An'}) .query({age:20}) .query({sex:'male'}) .end(cb) //第二种 superagent .get(/api) .query({name:'An',age:20,sex:'male'}) .end(cb) //第三种 superagent .get(/api) .query('name=An&age=20&sex=male') .end(cb) //第四种 superagent .get(/api) .query('name=An') .query('age=20') .query('sex=male') .end(cb)
-
- 在superagent中我们可以通过query()方法给URL后面带上参数,有4种写法
-
POST/PUT请求
superagent .post('/api') .set('Accept','application/json') .send('{"name":"An","age":20,"sex":"male"}') .end(cb) //等价于 ==> superagent .post('/api') .send({name:"An",age:20,sex:"male"}) .end(cb) //等价于 ==> superagent .post('/api') .send({name:"An"}) .send({age:20}) .sex({sex:'male'}) .end(cb)
superagent .post('/api') .type('form') .send({name:'An',age:20}) // name=An&age=20 .end(cb)
-
-
当然,除了json的形式去传递,我们还有一种很常见的表单提交,在superagent里,也实现了模拟表单的提交数据类型application/x-www-form-urlencoded, 我们可以通过type('form')方法进行转换
-
这两种请求,一般是要给服务端发送数据,现在文本数据的方式一般都以json的方式传递。我们可以在请求头里设置Accept=application/json,从而服务器可以根据请求头来生成json数据
-
在superagent里面,默认的数据传递格式是json,所以下面几种种方式是相同的
-
-
设置Content-Type的两种快速方式
superagent .post('/api') .type('application/json') .type('png') // 等价于==> superagent .post('/api') .accept('application/json') .accept('png')
-
-
type()方法
-
accept()方法
-
-
分析处理response body
-
-
解析后的数据会以对象的形式存在,可以通过res.body来得到。
-
superagent可以帮你解析返回的数据,当前支持三种类型的数据application/x-www-form-urlencoded application/json 和multipart/form-data
-
JSON/Urlencoded
'{"name":"An"}' //JSON String //解析 ==> { name:"An" //JSON Object }
-
Multipart
-
这种格式的数据的处理,superagent是通过Formidable模块,它是主要处理文件上传的模块,大家可以去了解下,也是Node里面十分常用的模块,也很简单易上手。上传的文件的信息可以在res.files去查看,当然,我觉得这个属性用的比较少,这只是个人观点了
-
-
Response的属性
-
-
res.text包含为被解析的响应数据
-
res.body上文提到了,包含解析的数据,但是目前只支持三种格式
-
res.header响应头,是一个Object
-
res.type & res.charset 类型和编码格式
-
res.status状态码
-
-
终止请求 req.abort() 暂停请求 req.timeout(ms) ms表示毫秒为单位的时间
-
可以通过pipe管道流入流出数据
//第一个例子
var fs = require('fs');
var request = require('superagent');
var postJson = fs.createReadStream('./postDataJson');
var req= request.post('/api');
req.accept('json');
stream.pipe(req);
//第二个例子
var fs = require('fs');
var request = require('superagent');
var getData = fs.createWriteStream('./getData');
var res= request.get('/api');
res.pipe(getData);
-
添加多个附件
request .post('/upload') .attach('avator','/path/a.png','An.png') .attach('photo','/path/b.png') .end(cb)
-
-
superagent也提供了一些高级的API,如果你想添加多个附件可以使用attach(name,[path],[filename]),其中你可以通过filename来自定义上传后文件的文件名
-
-
复合请求
request .post('/upload') .field('name','An') .field('age':20) .attach('avator','/path/a.png','An.png') .end(cb)
-
-
superagent也支持复合请求,比如你想上传一个带有你的姓名和邮箱的图片,那可以通过field(name,value)方法
-
-
错误处理
-
- 有时候我们可能会因为不同的原因得到4XX或者5XX的错误,这个时候我们确实是可以从end(function(err,res){...})里的err得到错误信息,比如er.status错误的状态码啥的,但是有些时候我们想去处理这些错误,重新发送一个别的请求啥的,那么这个时候我们可以通过on('error',handleFn)去处理 了
request
.post('/api')
.send(data)
.on('error',handleFn)
.end(cb);