【App爬虫之路】:海量食谱数据爬取持久化|Python 主题月

1,214 阅读2分钟

前言

Code皮皮虾 一个沙雕而又有趣的憨憨少年,和大多数小伙伴们一样喜欢听歌、游戏,当然除此之外还有写作的兴趣,emm...,日子还很长,让我们一起加油努力叭🌈

欢迎各位小伙伴们关注我的公众号:JavaCodes,名称虽带Java但涉及范围可不止Java领域噢😁,期待您的关注❤


App数据抓包分析

打开豆果美食APP

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

得到对应的JSON数据 在这里插入图片描述

对应代码

    url = "https://api.douguo.net/recipe/flatcatalogs"
    data = {
        "client": "4,",
        "_vs": "0",
    }
    count = 0
    response = handle_request(url, data)
    # 转化为json格式
    index_response_dict = json.loads(response.text)

使用在线JSON解析网站进行解析,可以发现我们得到了需要的数据

在这里插入图片描述

那我们就进入红烧肉吧😁,发现有三种排序的方式

在这里插入图片描述

那我们在fiddler中可以发现三个对应的HTTPS请求

在这里插入图片描述

表面上看长得一摸一样,但三个都是POST请求,所以参数不同,根据我的实践,发现三种分类对应三个order字段的不同值

在这里插入图片描述

再来看看具体的JSON数据,可见是一一对应的

在这里插入图片描述

对应部分代码

caipu_list_url = "https://api.douguo.net/recipe/v2/search/0/20"
caipu_list_response = handle_request(url=caipu_list_url, data=data)
caipu_list_response_dict = json.loads(caipu_list_response.text)

然后的话还需要去请求详情页

请求路径中的数字就是上面得到的ID

在这里插入图片描述

在这里插入图片描述

对应部分代码

detail_url = "https://api.douguo.net/recipe/v2/detail/" + str(shicai_id)
detail_data = {
    "client": "4",
    "author_id": "0",
    "_vs": "11104",
    "_ext": '{"query":{"kw":' + str(
        shicai) + ',"src":"11104","idx":"3","type":"13","id":' + str(
        shicai_id) + '}}',
    "is_new_user": "1",
}
detail_response = handle_request(detail_url, detail_data)
#解析为json格式
detail_response_dict = json.loads(detail_response.text)

爬取结果

代码测试,只爬取了部分

在这里插入图片描述

在这里插入图片描述




最后

我是 Code皮皮虾,一个热爱分享知识的 皮皮虾爱好者,未来的日子里会不断更新出对大家有益的博文,期待大家的关注!!!

创作不易,如果这篇博文对各位有帮助,希望各位小伙伴可以==一键三连哦!==,感谢支持,我们下次再见~~~

分享大纲

大厂面试题专栏

Python爬虫专栏


在这里插入图片描述