结合kimi chat的爬虫实战思路

298 阅读1分钟

背景

想钻研一下项目组件,找找之后的学习方向。不能自以为是,所以借着网开源项目网站上公布的项目内容看一下,那些是我可以努力去学习的(入门的)。首先需要获取相关内容,于是爬取整理。

任务1:爬一个项目网站上的项目列表。

展示

在这里插入图片描述

过程:

  1. 开始是想着借助kimi chat去解析前端页面然后编写代码,但是发现生成的代码,总是跑不起来。 前端的目录层级
  2. 去b站上学习了一下。gpt辅助爬虫 学习了一下 爬虫常用的几个属性
  • curl(包含所有信息,header啥的) 和 har(所有操作记录)
  • 还了解到一个curl convert 在这里插入图片描述
  1. 看到评论区,选择直接确实,直接调爬取后端api好了 在这里插入图片描述 在这里插入图片描述
  2. 复制粘贴完整的curl指令, 在这里插入图片描述
  3. 喂给kimi chat(不登录网站没有cookie的话,请求访问就是空。) 在这里插入图片描述
  4. 进一步的需求在这里插入图片描述
  5. 出现报错,给他说一下 在这里插入图片描述
  6. 爬取效果 在这里插入图片描述

任务2:补充项目详情

内容展示

在这里插入图片描述

过程

那这个和上面,过程大同(爬取请求)小异(从之前的csv文件中读取 项目ID,然后请求)

  1. 粘贴curl请求在这里插入图片描述
  2. 突然想到我这样的请求是不是要加个间隔,要不 算什么恶意访问。
 import time
 ​
 time.sleep(0.5)  # 休眠500毫秒
  1. 效果如下