Cursor启航:打造你的第一个爬虫项目

536 阅读3分钟

Cursor,作为一款集成了先进人工智能技术的代码编辑器,它不仅保留了传统编辑器的所有功能,还通过AI智能补全、代码生成、错误检测等特性,极大地提升了编程效率和体验。对于初学者来说,Cursor的友好界面和智能引导将帮助你更快地上手编程;而对于有经验的开发者,Cursor则能成为你手中的一把利剑,助你更加高效地完成任务。 今天,我们一起来用Cursor去完成一个爬虫项目

如何用Cursor完成爬虫项目

  • 确定需求和爬取的数据(下面我们来尝试爬取一下新浪微博的热榜信息)

1.应用安装与环境配置

  • 安装cursor并注册: Cursor - The AI Code Editor
  • 这次我们将使用免费的Qwen/Qwen2.5-Coder-32B-Instruct模型,去代理申请一个密钥SiliconCloud
  • 我们在设置中Models选择中添加上述模型并将其他模型全部关闭

2.我们向Cursor对话框输入我们的需求:

帮我写一个Node程序,去爬取微博的热榜
要求:1.使用request-promise和cheerio
2.目标网站:@tophub.today/n/KqndgxeLl… 3。爬取表格中热榜的排名、标题、热度、链接,并保存到csv文件中 请一步步思考,你可以打开目标网页分析其网页结构,并编写代码

(注意:在与Cursor对话时需要尽量详细地讲述清楚自己的需求,以确保AI可以根据程序员的需求生成更符合用户需求的代码。)

3.在集成终端输入命令 npm init -y

  • 使用 npm init -y 可以快速生成一个默认的 package.json 文件,从而快速开始一个新项目,而无需手动配置该文件。
  • 根据cusor给出来的代码
// import request from ''
// node 早期的 commonjs 模块化
const request  = require('request-promise')
// 解析request 拿到的html 字符串
const cheerio = require('cheerio')
const createCsvWriter = require('csv-writer').createObjectCsvWriter

// 常量 大写 配置项
const HOT_URL = 'https://tophub.today/n/KqndgxeLl9';
// network http 请求
request(HOT_URL)
    .then(html => {
    // 请求完成了
        // console.log(html);
        // 解析html 得到热榜
        // html 字符串 -> tr 
        // 内存里模拟浏览器 cheerio
        const $ = cheerio.load(html);
        const hotList = [];
        $('.jc table tr').each((index, element) => {
            // console.log(index, element);
            // ${node}.find(querySelector)
            const rank = 
            $(element).find('td:nth-child(1)').text().trim()
            
            const title = 
            $(element).find('td:nth-child(2)').text().trim()
            // console.log(title);
            const heat = 
            $(element).find('td:nth-child(3)').text().trim()
            //
            const link = $(element).find('td:nth-child(2) a').attr('href').trim()
            hotList.push({
                rank,
                title,
                heat,
                link
            })
        })

        const csvWriter = createCsvWriter({
            path: 'hot_list2.csv',
            header: [
                { id: 'rank', title: '排序' },
                { id: 'title', title: '标题' },
                { id: 'heat', title: '热度' },
                { id: 'link', title: '链接' },
            ]
        })

        csvWriter
            .writeRecords(hotList)
            .then(() => console.log('CSV file has been saved.'))

    })

4.在命令行运行该文件 node main.js

  • 得到热榜数据在hot_list2.csv文件中

image.png

这样我们就完成了一个简单的爬虫项目。

ending

通过Cusor,我们仅仅通过对它讲述我们的需求和少量的代码就完成了我们的爬虫项目,这在Cusor出现之前是难以想象的。
由此可见,Cursor象征着未来发展趋势,它的出现能大大提高编程的效率,使程序员更多专心于代码的核心部分,同时也为编程小白的编程学习开辟出了一条崭新的道路。