node爬虫利器之superagent

672 阅读4分钟

一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第17天,点击查看活动详情

Hi, 大家好。我是新人,程序员库里。

今天给大家分享node爬虫利器之superagent

什么是SuperAgent

  • superagent它是一个强大并且可读性很好的轻量级ajaxAPI,是一个关于HTTP方面的一个库,而且它可以将链式写法玩的出神入化。
    var superagent = require('superagent');
    superagent
        .post('/api')
        .send({
            'key': 'value'
        })
        .set('header_key', 'header_value')
        .end(function(err, res) {
            if (err) {
                //do something
            } else {
                //do something
            }
        })

安装SuperAgent

    npm install superagent --save

开始

  • 一般来说,我们常有的HTTP请求包括GET POST DELETE HEAD PUT 这些。在不同的应用场景,在发送请求的时候,会选择一个正确的请求方式,然后通过.end()函数来得到请求后的返回结果。
        superagent
        .get('/api') //这里的URL也可以是绝对路径
        .end(function(req,res){
            //do something
        })
        // 等价于==>
        superagent('GET','/api')//这里的URL也可以是绝对路径
        .end(function(req,res){
            //do something
        })

设置请求头

  • 这一点在写爬虫的时候十分的有用,因为有些网站可能设置了一些限制条件,比如它会去匹配你的请求头里面的一些字段, 像User-Agent Referer等,如果你没有设置这些请求头的话,可能就抓取不到数据咯~

  • SuperAgent里面设置请求头很简单,通过使用set()方法就可以设置了,有两种方式

        superagent
        .get('/api')
        .set('Referer','https://www.google.com')
        .set('Accept','image/webp,image/*,*/*;q=0.8')
        .end(function(req,res){
            //do something
        })
    
        superagent
        .get('/api')
        .set({
            'Referer','https://www.google.com',
            'Accept','image/webp,image/*,*/*;q=0.8'
        })
        .end(function(req,res){
            //do something
        })
    
    • 放在一起设置

    • 单个单个的设置

  • GET请求方式

       //接下来所形成的URL为/api?name=An&age=20&sex=male
       //第一种
       superagent
           .get(/api)
           .query({name:'An'})
           .query({age:20})
           .query({sex:'male'})
           .end(cb)
       //第二种
       superagent
           .get(/api)
           .query({name:'An',age:20,sex:'male'})
           .end(cb)
       //第三种
       superagent
           .get(/api)
           .query('name=An&age=20&sex=male')
           .end(cb)
       //第四种
           superagent
               .get(/api)
               .query('name=An')
               .query('age=20')
               .query('sex=male')
               .end(cb)
    
    • 在superagent中我们可以通过query()方法给URL后面带上参数,有4种写法
  • POST/PUT请求

       superagent
       .post('/api')
       .set('Accept','application/json')
       .send('{"name":"An","age":20,"sex":"male"}')
       .end(cb)
       //等价于 ==>
       superagent
           .post('/api')
           .send({name:"An",age:20,sex:"male"})
           .end(cb)
       //等价于 ==>
       superagent
           .post('/api')
           .send({name:"An"})
           .send({age:20})
           .sex({sex:'male'})
           .end(cb)
    
       superagent
       .post('/api')
       .type('form')
       .send({name:'An',age:20}) // name=An&age=20
       .end(cb)
    
    • 当然,除了json的形式去传递,我们还有一种很常见的表单提交,在superagent里,也实现了模拟表单的提交数据类型application/x-www-form-urlencoded, 我们可以通过type('form')方法进行转换

    • 这两种请求,一般是要给服务端发送数据,现在文本数据的方式一般都以json的方式传递。我们可以在请求头里设置Accept=application/json,从而服务器可以根据请求头来生成json数据

    • 在superagent里面,默认的数据传递格式是json,所以下面几种种方式是相同的

  • 设置Content-Type的两种快速方式

       superagent
       .post('/api')
       .type('application/json')
       .type('png')
       // 等价于==>
       superagent
           .post('/api')
           .accept('application/json')
           .accept('png')
    
    • type()方法

    • accept()方法

  • 分析处理response body

    • 解析后的数据会以对象的形式存在,可以通过res.body来得到。

    • superagent可以帮你解析返回的数据,当前支持三种类型的数据application/x-www-form-urlencoded application/json 和multipart/form-data

    • JSON/Urlencoded

            '{"name":"An"}' //JSON String
            //解析 ==>
            {
                name:"An"   //JSON Object
            }
      
    • Multipart

    • 这种格式的数据的处理,superagent是通过Formidable模块,它是主要处理文件上传的模块,大家可以去了解下,也是Node里面十分常用的模块,也很简单易上手。上传的文件的信息可以在res.files去查看,当然,我觉得这个属性用的比较少,这只是个人观点了

  • Response的属性

    • res.text包含为被解析的响应数据

    • res.body上文提到了,包含解析的数据,但是目前只支持三种格式

    • res.header响应头,是一个Object

    • res.type & res.charset 类型和编码格式

    • res.status状态码

  • 终止请求 req.abort() 暂停请求 req.timeout(ms) ms表示毫秒为单位的时间

  • 可以通过pipe管道流入流出数据

     //第一个例子
     var fs = require('fs');
     var request = require('superagent');
     var postJson = fs.createReadStream('./postDataJson');
     var req= request.post('/api');
     req.accept('json');
     stream.pipe(req);
     
     //第二个例子
     var fs = require('fs');
     var request = require('superagent');
     var getData = fs.createWriteStream('./getData');
     var res= request.get('/api');
     res.pipe(getData);
  • 添加多个附件

       request
       .post('/upload')
       .attach('avator','/path/a.png','An.png')
       .attach('photo','/path/b.png')
       .end(cb)
    
    • superagent也提供了一些高级的API,如果你想添加多个附件可以使用attach(name,[path],[filename]),其中你可以通过filename来自定义上传后文件的文件名

  • 复合请求

          request
          .post('/upload')
          .field('name','An')
          .field('age':20)
          .attach('avator','/path/a.png','An.png')
          .end(cb)
    
    • superagent也支持复合请求,比如你想上传一个带有你的姓名和邮箱的图片,那可以通过field(name,value)方法

  • 错误处理

    • 有时候我们可能会因为不同的原因得到4XX或者5XX的错误,这个时候我们确实是可以从end(function(err,res){...})里的err得到错误信息,比如er.status错误的状态码啥的,但是有些时候我们想去处理这些错误,重新发送一个别的请求啥的,那么这个时候我们可以通过on('error',handleFn)去处理 了
       request
         .post('/api')
         .send(data)
         .on('error',handleFn)
         .end(cb);