从零开始写爬虫:解锁AI与Cursor的超强组合!!

71 阅读3分钟

引言:

今天,我们将从零开始,通过结合AI技术和Cursor这样的先进工具,实现对微博热搜榜信息的自动化收集与整理。接下来,我们将详细介绍如何运用AI及Cursor来完成这项任务的技术细节。别担心,我们会让这个过程既专业又有趣!

14.jpg

1.准备工作

1.1 Cursor的安装

首先,我们需要安装Cursor——一个强大的AI代码编辑器。你可以访问Cursor官网下载并安装它。

image.png

1.2 API Key 的获取

为了使用Cursor的高级功能,我们需要获取API Key。如果你没有API Key,我们可以通过硅基流动平台注册并获取你的API Key。

image.png

API Key的作用?

API Key是用于验证你身份的密钥,确保你有权访问特定的服务和资源。在本项目中,它将允许我们调用Cursor的AI功能。想象一下,这就像是一把万能钥匙,让你能够进入一个充满无限可能的世界。

1.3 Cuosor的 AI配置

在Cursor中,我们可以选择不同的AI模型。这里我们选择使用Qwen/Qwen2.5-Coder-32B-Instruct,因为它不仅免费,而且能够满足我们的需求。毕竟,谁不喜欢免费的东西呢?

image.png

2.接下来,实战开始!

22.jpg

2.1 点击“Toggle AI Pane”(Ctrl+Alt+b)进入AI界面

image.png

2.2 输入prompt提示词,规范AI生成的内容和行为

例如,你可以输入如下提示:

请帮我编写一个Node程序,去爬取微博的热榜。 
#要求: 
1.使用request-promise和cheerio 
2.目标网站: @https://tophub.today/n/KqndgxeLl9 
3.爬取表格中热榜的排名、标题、热度、链接,并保存到csv文件中
请一步步思考,你可以打开目标网站分析其网页结构并编写代码。

运行后AI就会给出一系列详细的操作步骤:

image.png

得到AI给出的结果后,按照结果执行可能会出现错误或需要优化的地方。这时候可以持续提问AI,让AI优化代码。如果可以,你也可以先向AI提问每段代码的作用与含义,在理解代码后再进行修改。

按照AI给出的步骤,成功执行后应该会得到类似的.csv文件内容: image.png

接下来,我们可以通过AI提问逐步理解每一段代码的含义和作用。这才是我们这次实战的真正收获。以往晦涩难懂的代码,通过AI的帮助,我们可以更快地理解其含义,方便了我们的学习和应用。想象一下,这就像是一位智慧的导师,一步步引导你走向编程的巅峰。

2.3 你可以向AI提出以下问题来进一步理解和优化代码:

  • 1.这段代码的整体逻辑是什么?

image.png

  • 2.request-promise库的作用是什么?

image.png

  • 3.cheerio库的作用是什么?

image.png

通过这些提问,你可以更好地理解每一段代码的作用和整个项目的逻辑。如果有任何部分不清楚或需要进一步优化,可以继续与AI互动,直到你完全掌握为止。

结语

爬虫技术虽然强大,但也不能乱用。在使用过程中,请确保遵守相关法律法规,尊重网站的使用条款。希望本文能帮助你更好地理解和应用AI与Cursor,享受编程的乐趣!如果你有任何问题或需要进一步的帮助,随时欢迎提问。让我们一起探索更多有趣的技术吧!