Tumblr爬虫——下载指定博主资源

553 阅读1分钟
原文链接: zhuanlan.zhihu.com

看看最近的新闻都知道Tumblr将在12月17日起下架所有成人内容。具体信息如下,内容来自官网



写了一个爬虫,可以下载Tumblr指定博主的资源,放在了以前的awesome_crawl中,会在阅读原文中给出地址。





用法:python tumblr_spider.py username


username就是你选中的博主,如果需要下载多位,可以用,分割。如 python tumblr_spider.py user1,use2,use3


代码很简单,可以自行查看源代码。需要注意,Tumblr需要科学上网,比如我用的是ss,选择Copy HTTP Proxy Shell Export Line,然后将代理在get_proxy()函数中设置。


有意思的是写了一个公用的方法,代码如下:

class Session(object):
    def __init__(self):
        self.session = requests.session()
        self.session.proxies.update(get_proxy())
        self.session.headers.update(headers)

    def get(self, url, **kwargs):
        retry_times = 0
        while True:
            try:
                res = self.session.get(url, **kwargs)
                return res
            except Exception:
                retry_times += 1
                if retry_times > 20:
                    return None
                else:
                    continue


这样,在使用的时候就比较方便,直接实例化一个session对象,各种方法可以使用调用get添加。因为我这里没有需要使用post方法,如果有需要可以使用同样的方法来实现此功能。


其实Tumblr中有很多很有趣的东西,比如:







还有











为啥突然会有这个决定呢?


你们说,是不是要来中国了



代码地址:zhangslob/awesome_crawl

原文:Tumblr爬虫--下载指定博主资源