Cursor:轻松爬取页面数据

567 阅读3分钟

前言

cursor作为今年最热门的ai代码编辑器,利用它可以为我们省去很多的工作量,今天我们就来利用cursor去实现一个爬虫看看有多快,不仅极其的方便,而且可以高效地完成任何需求。

Cursor

在cursor中内置了很多大模型去完成写代码的任务,除此之外,我们也可以自己手动添加一些免费的大模型去实现;cloud.siliconflow.cn/i/CSCXvips 在这个网址中有很多大模型可以供我们使用,需要的同学可以自取。

在cursor的设置中,我们可以去添加大模型,Qwen-coder 模型:是由阿里云开发的一种特定的大规模语言模型,专门用于理解和生成编程代码;

image.png

并在下面填入需要的apikey以及代理网址;

image.png

apikey可以在刚才的网站中去进行复制,里面有很多大模型都可以使用;

image.png

爬取数据

完成对cursor的配置后,我们就可以开始实现爬虫了,比如说我们可以去快速的爬取微博热榜上面的数据;我们可以给cursor一条这样的指令;

请帮我编写一个Node程序,去爬取微博的热榜。                 
#要求:                                                                               
1. 使用request-promise 和 cheerio                                
2. 目标网站: @https://tophub.today/n/KqndgxeLl9                             
3. 爬取表格中热榜的排名、标题、热度、链接,并保存到csv文件中                                                                   
请一步步思考,你可以打开目标网站分析其网页结构,并编写代码。

image.png

仅仅是用聊天的方式,cursor就能够快速的帮我们实现一大段代码;

const request = require('request-promise');
const cheerio = require('cheerio');
const createCsvWriter = require('csv-writer').createObjectCsvWriter;
const url = 'https://tophub.today/n/KqndgxeLl9';
request(url)
   .then(html => {
       const $ = cheerio.load(html);
       const data = [];
        // 选择表格中的每一行
        $('table.table tbody tr').each((index, element) => {
            const rank = $(element).find('td:nth-child(1)').text().trim();
            const title = $(element).find('td:nth-child(2) a').text().trim();
            const heat = $(element).find('td:nth-child(3)').text().trim();

            // 将每一行的信息存入数组
            data.push({ rank, title, heat });
        });
        // 打印data数组以确认数据是否正确提取
       console.log('Data array:', data);        
        // 创建CSV写入器
       const csvWriter = createCsvWriter({  
           path: 'weibo_hot_topics.csv',
           header: [
               { id: 'rank', title: '排名' },
               { id: 'title', title: '标题' },
               { id: 'heat', title: '热度' },
               { id: 'link', title: '链接' }
           ]
       });
        // 写入CSV文件
       csvWriter.writeRecords(data)
           .then(() => {
               console.log('数据已保存到 weibo_hot_topics.csv');
           })
           .catch(err => {
               console.error('写入CSV文件时出错:', err);
           });
   })
   .catch(err => {
       console.error('请求网页时出错:', err);
   });

cursor很轻松就帮我们完成这个爬虫的任务,并且我们也可以去调试运行。

image.png

而且还成功的把数据写进了csv文件中。

image.png

不得不说,效率直接比传统的编程方式快了一倍。

小结

利用 Cursor AI代码编辑器的强大功能,它不仅大幅减少了编程所需的时间和精力,还简化了爬虫开发等复杂任务。我们通过简单的自然语言指令,就能够让 cursor 快速生成符合需求的Node.js程序;而且利用 Cursor 进行开发不仅可以提高效率,还能确保代码质量,让开发者可以将更多时间投入到创新和解决业务问题上。