用Async/Await控制异步,实现完美小爬虫

2,052 阅读2分钟

在JavaScript里,所有的操作都是通过异步完成,不需要像python一样按顺序执行,非常容易因为某个函数执行速度过慢导致整个程序阻塞,从效率上来说远远低于JavaScript的原生异步机制。当然,python也可以实现异步功能,但是会麻烦不少,尤其对于一些代码量少的小爬虫非常不友好。

在我上篇爬虫文章里就提到了不少异步带来的好处,但同时坏处也不少,很多时候会导致输出的结果并不是我们想要的。比如我们希望在爬取到所有的数据后才开始执行处理函数,但JavaScript会在爬取数据的同时执行处理函数,直接导致爬虫出错。

0.举个例子:

const getWeb = function(){
    requestSomething()
    setData()
    return console.log(“3.程序结束”)
}

const requestSomething = function(){
    setTimeout(() => console.log(‘1.网页数据爬取完毕!’),2000)
}

const setData = function(){
    console.log(‘2.开始处理数据!’)
}

getWeb()

输出结果:

看到结果我们发现,明明是爬取网页的requestSomething函数先执行,但是先输出结果的却是处理函数setData,甚至在整个getWeb函数返回后才开始输出爬取结果。

为了解决这个问题,束缚住JavaScript这匹脱缰的野马,这里就需要用到Async函数,让JavaScript程序能按照我们希望的顺序执行。

1.如何创建Async使用

首先要创建一个async函数,在我们希望控制异步的地方使用await来进行控制,比如:

const getWeb = async function(){
    await requestSomething()
    setData()
    return console.log(“3.程序结束”)
}

接下来还需要改造requestSomething函数,首先直接返回一个Promise对象,里面通过匿名函数接收两个参数,分别是resolve和reject,当执行resoleve()时表示当前函数执行完毕,而reject()则是返回错误信息,我们先来看resoleve:

const requestSomething = function(){
    return new Promise((resolve, reject) => {
        setTimeout(() => {
            console.log(‘1.网页数据爬取完毕!’)
            resolve()
        },2000)
    })
}

来运行一下改造后的代码:

2.如何处理错误

还记得有一个reject命令吗?在爬取失败时,可以通过reject返回失败内容,然后使用catch方法来输出,现在,来改造一下代码,在爬取失败时输出失败信息:

const requestSomething = function(){
    return new Promise((resolve, reject) => {
        let err = ‘1.爬取失败!’
        if(typeof err !=  ‘undefined’){
            //返回错误信息
            reject(err)
        } else (
            setTimeout(() => {
                console.log(‘1.网页数据爬取完毕!’)
                resolve()
            },2000)
        )
    })
}

const getWeb = async function(){
    //通过catch捕捉返回的错误信息
    await requestSomething().catch(e => console.log(e))
    setData()
    return console.log(“3.程序结束”)
}

输出结果:

至此,我们已经成功控制住了异步程序,可以在小爬虫里直接应用了!

完整代码: github.com/Card007/Nod…

也欢迎访问我的主页: Nothlu’s Blog