从零开始:Cursor与Qwen带你飞,小白也能轻松爬数据

648 阅读3分钟

引言

在这个信息爆炸的时代,我们每天都在与海量的数据打交道。从早上的新闻推送,到午后的社交媒体更新,再到晚上的在线购物狂欢——网络信息无处不在,它们就像空气一样,无形却至关重要。但你有没有想过,如何才能在这片信息海洋中精准地找到自己想要的那滴水呢?这时,爬虫技术就登场了!而今天我们使用当前爆火的Cursor结合我们的通义千问来帮助我们编写爬虫代码。

一、准备工作

首先打开我们亲爱的 Cursor ,在主页面 ctrl+shift+J 快捷打开设置,或者找到设置的图标打开,再点击Models进入页面。

这里我们使用的是阿里云通义千问团队开源的大语言模型Qwen/Qwen2.5-Coder-32B-Instruct,在没有安装这个大模型之前,在Model Names上是没有Qwen/Qwen2.5-Coder-32B-Instruct这个的,把原先自带 的全部关闭即可

image.png

然后我们就需要获取API Key,这里我们可以打开SiliconCloud来调用自己的API Key(别忘了注册哦~)没有的话直接新建一个就可以了。

image.png

然后我们回到 Cursor 把 API Key 输入后点击 Verify ,再到上方把Qwen/Qwen2.5-Coder-32B-Instruct这个选项打开。

image.png

最后回到主页面,打开我们的AI 页面就可以了。

image.png

这样我们就完成了前期工作,那么话不多说,直接开“问”!

二、体现 AI 强大的时候到了

毫无疑问,当我们的 Cursor 和 AI 结合的时候迸发出的力量是难以想象的,在我们完成了前期工作后,接下来就是向 AI 交流并让它完成我们的需求了。

而在这里就要展现我们的 prompt 的功底了,这里我们以爬取微博热榜为例子给大家写一个参考。

温馨提示:铁铁们,饭可以乱吃,但是网站不能乱爬哦~

请帮我编写一个Node程序,去爬取微博的热榜。                 
#要求:                                                                               
1. 使用request-promise 和 cheerio                                
2. 目标网站: @https://tophub.today/n/KqndgxeLl9                             
3. 爬取表格中热榜的排名、标题、热度、链接,并保存到csv文件中                                       

请一步步思考,你可以打开目标网站分析其网页结构,并编写代码。

而当我们向 AI 提交我们的需求后,它就会返还我们所需的内容了,例如:

  1. 在这里它先进行了要求的分析,并且列出步骤,我们可以查看是否有误差并再次提问修改。

image.png

  1. 这里提醒了我们所需安装的模板,并且把命令也列出来了,只需要我们ctrl+c 加 ctrl+v 就完成了模板安装,真是太太太太智能了!

image.png

  1. 接下来就是编写代码了,当然 AI 不是万能的,有时候不会一次到位。那么我们就可以与它多多交流,把错误提交给 AI 让它解决。这里就不全展示了,想必你也得到了自己的结果。

image.png

  1. 如果有对代码不懂的地方,可以翻翻下方的代码解释,如果还有任何不懂的地方可以再次问 AI 哦,这里就不全部展示了。

image.png

5.最后只需要运行程序即可,它甚至还在教我怎么运行,只能说一条龙服务了。

image.png

结语

通过今天的学习,你不仅学会了如何使用 Cursor 和强大的 Qwen2.5-Coder-32B-Instruct模型 来编写爬虫代码,还体验了一把从零基础到成功运行程序的成就感。是不是感觉又为自己的技能树加点了呢?

---欢迎各位点赞、收藏、关注,如果觉得有收获或者需要改进的地方,希望评论在下方,不定期更新

0bae-hcffhsw0416753.gif