爬取豆瓣电影信息:node传统后端流程与利用openai的效率差!

308 阅读3分钟

前言

在我主页的第一篇文章AIGC?一个简单的爬虫实例告诉你它是谁.... - 掘金 (juejin.cn)中,讲述了利用aigc的方式拿到我们想要的网页数据,那是通过前端取源码的方式通过对aigc提出需求,得到了JSON数据,今天我们要讲的是:从node后端获取到JSON数据与利用openai的插件这两种方式效率差有多大。

准备工作
在进行我们的编码之前,第一步是要进行项目的初始化,我们选择的集成开发工具是VScode,进入项目的js文件后打开文件夹所在位置的终端,并输入npm init -y,如图下

image.png
第二步是安装相应的包,我们这个演示项目所需要的包有require,cheerio,openai,如图下

image.png

image.png

image.png 第三步是在.js文件的开头导入需要的模块,并给OpenAI模块创建一个实例对象client

image.png 这样我们就完成了编码前的准备工作,接下来开始编码

编码

1、以node传统后端的编码思路

step1:根据url发送的一个http请求 拿到html
step2:根据html分析,拿到电影的内容
step3:返回以JSON为返回格式的电影内容

step1的代码实现:

image.png step2的代码实现

image.png step3的代码实现 -->通过一个封装函数getMovieInfo(node)实现

image.png
至此,完成了以传统方式爬取豆瓣电影数据的需求....

2、以利用openai大模型的编码思路

step1:编写提示词prompt
step2:调用aigc大模型,传入prompt提示词
step3:返回结果

由于代码很短,三个步骤的完整代码我就只截一张图

image.png 至此,完成了以利用openai大模型爬取豆瓣电影数据的需求....

对比

执行效率与速度 ----->aigc√
//Node传统后端方法:通过直接发送HTTP请求并解析HTML来获取数据,这种方法的执行时间主要取决于网络延迟、目标网站服务器响应速度以及解析HTML的时间。
//OpenAI大模型方法:利用AI模型直接生成所需数据,绕过了实际的网络请求和HTML解析过程,理论上可以大大减少数据获取的等待时间。
灵活性 ----->aigc√
//Node传统后端方法:但这种方法对网页结构变化敏感,一旦网页更新,可能需要调整代码。
//OpenAI大模型方法:模型输出的灵活性高,可以理解和生成多样化的请求,也能处理理解一些非结构化的或隐含信息。
资源消耗与成本 ----->aigc√
//Node传统后端方法:但这种方法对网页结构变化敏感,一旦网页更新,可能需要调整代码。
//OpenAI大模型方法:模型输出的灵活性高,可以理解和生成多样化的请求,也能处理理解一些非结构化的或隐含信息。

总结

从三个方面分析总结我们能直观地看出利用aigc的效率与传统后端的效率差距很大,aigc进行对传统后端的一些代码改革,能够大大提高开发的效率,在未来可能在编程中aigc的占比会越来越高,是否会使用aigc可能会成为未来一个好程序员的评判标准..