引言
在这个信息爆炸的时代,我们每天都在与海量的数据打交道。从早上的新闻推送,到午后的社交媒体更新,再到晚上的在线购物狂欢——网络信息无处不在,它们就像空气一样,无形却至关重要。但你有没有想过,如何才能在这片信息海洋中精准地找到自己想要的那滴水呢?这时,爬虫技术就登场了!而今天我们使用当前爆火的Cursor结合我们的通义千问来帮助我们编写爬虫代码。
一、准备工作
首先打开我们亲爱的 Cursor ,在主页面 ctrl+shift+J 快捷打开设置,或者找到设置的图标打开,再点击Models进入页面。
这里我们使用的是阿里云通义千问团队开源的大语言模型Qwen/Qwen2.5-Coder-32B-Instruct
,在没有安装这个大模型之前,在Model Names上是没有Qwen/Qwen2.5-Coder-32B-Instruct
这个的,把原先自带 的全部关闭即可
然后我们就需要获取API Key,这里我们可以打开SiliconCloud来调用自己的API Key(别忘了注册哦~)没有的话直接新建一个就可以了。
然后我们回到 Cursor 把 API Key 输入后点击 Verify ,再到上方把Qwen/Qwen2.5-Coder-32B-Instruct
这个选项打开。
最后回到主页面,打开我们的AI 页面就可以了。
这样我们就完成了前期工作,那么话不多说,直接开“问”!
二、体现 AI 强大的时候到了
毫无疑问,当我们的 Cursor 和 AI 结合的时候迸发出的力量是难以想象的,在我们完成了前期工作后,接下来就是向 AI 交流并让它完成我们的需求了。
而在这里就要展现我们的 prompt 的功底了,这里我们以爬取微博热榜为例子给大家写一个参考。
温馨提示:铁铁们,饭可以乱吃,但是网站不能乱爬哦~
请帮我编写一个Node程序,去爬取微博的热榜。
#要求:
1. 使用request-promise 和 cheerio
2. 目标网站: @https://tophub.today/n/KqndgxeLl9
3. 爬取表格中热榜的排名、标题、热度、链接,并保存到csv文件中
请一步步思考,你可以打开目标网站分析其网页结构,并编写代码。
而当我们向 AI 提交我们的需求后,它就会返还我们所需的内容了,例如:
- 在这里它先进行了要求的分析,并且列出步骤,我们可以查看是否有误差并再次提问修改。
- 这里提醒了我们所需安装的模板,并且把命令也列出来了,只需要我们ctrl+c 加 ctrl+v 就完成了模板安装,真是太太太太智能了!
- 接下来就是编写代码了,当然 AI 不是万能的,有时候不会一次到位。那么我们就可以与它多多交流,把错误提交给 AI 让它解决。这里就不全展示了,想必你也得到了自己的结果。
- 如果有对代码不懂的地方,可以翻翻下方的代码解释,如果还有任何不懂的地方可以再次问 AI 哦,这里就不全部展示了。
5.最后只需要运行程序即可,它甚至还在教我怎么运行,只能说一条龙服务了。
结语
通过今天的学习,你不仅学会了如何使用 Cursor 和强大的 Qwen2.5-Coder-32B-Instruct模型 来编写爬虫代码,还体验了一把从零基础到成功运行程序的成就感。是不是感觉又为自己的技能树加点了呢?
---欢迎各位点赞、收藏、关注,如果觉得有收获或者需要改进的地方,希望评论在下方,不定期更新