AIGC vs. 传统爬虫:AI新纪元已经来到

200 阅读5分钟

前言

AIGC时代:自然语言理解的飞跃

随着AIGC技术的成熟,特别是LLM(大型语言模型)的兴起,我们迎来了数据处理的新纪元。以ChatGPT为例,它不仅能够理解人类的意图,还能在指令引导下,直接从原始HTML文本中识别并构建结构化的电影信息,如电影名、图片链接、简介、评分和评论人数等,无需我们手动编写正则表达式或逐一解析标签。

首先

AIGC,全称为人工智能生成内容(Artificial Intelligence Generated Content),标志着人工智能技术在创意与内容创作领域的重大进步。这项技术利用机器学习、自然语言处理、深度学习模型以及其他先进算法,如生成对抗网络(GANs)、Transformer、扩散模型等,自动创造多样化的数字内容。这些内容形式广泛覆盖了文本、图像、音频、视频、音乐、代码甚至交互式体验,大大扩展了人类的创造力边界。

AIGC与传统编程的碰撞

AIGC在程序员眼里既是机遇也是危险,因为实在是太便捷了,方便到没有接触过计算机的人经过短暂的教程,也能简单解决一些代码项目,而在一些程序员眼中,这无疑替代了自己的一部分职责,令人无法接受的同时也带来了AI取代自己的焦虑,但更多的人在拥抱AIGC。目前的AIGC对程序员的工作威胁不高,反而带来了便捷,它能剔除很多流程性代码,用爬虫举例:

传统爬虫

它的代码是这样的:

const request = require('request-promise');
const cheerio = require('cheerio');
async function main(){
const URL = "https://movie.douban.com/chart";
const html = await request({
        url: URL
    })
let $ = cheerio.load(html);
const movieNodes = $('#content .article .item');
   for(let i = 0; i<movieNodes.length; i++){
        movieList.push(getMovieInfo(movieNodes[i]));
    }
    console.log(movieList);
}
const getMovieInfo = function(node){
    let movieInfo = {};
    let $$ = cheerio.load(node);
    let title = $$('.pl2 a').text();
    let pic = $$('.nbg img').attr('src');
    let info = $$(' .pl').text();
    let rating_nums = $$('.rating_nums').text();

    movieInfo.title = title;
    movieInfo.pic = pic;
    movieInfo.info = info.trim();
    movieInfo.rating_nums = rating_nums;

    return movieInfo;
}
main();

这是一段简单爬取豆瓣电影的代码,详细解说请访问juejin.cn/post/737099… 而这些对于AIGC来说,这其中有大约1/3是多余的,下面是AIGC的爬虫代码:

const request = require('request-promise');
const cheerio = require('cheerio');
const OpenAI = require('openai');
const client = new OpenAI({
    apiKey: '',
    baseURL:'https://api.chatanywhere.tech/v1'
})
async function main(){
    const URL = "https://movie.douban.com/chart";

    const html = await request({
        url: URL
    })
        let movie_html = ''
    for(let i = 0; i < 2; i++) {
        movie_html += cheerio.load(movieNodes[i]).html();
    }
    let prompt = `
    ${movie_html}
    这是一段电影列表html,请获取电影名(name),封面链接(picture),简介(info),评分(score)
        ,评论人数(commentsNumber)。请使用括号的单词作为属性名,以JSON的格式返回。
    `
    const chatCompletion = await client.chat.completions.create({
        model:'gpt-3.5-turbo', // 适合聊天的模型   有很多种
        messages: [{
            role : 'user',
            content : prompt
        }]
    })
    console.log(chatCompletion.choices);

这样就能够爬取到页面内容,并且更加的直观,AI通过读取我所设置的prompt来对代码获取的html数据进行处理,就无需我们来写额外的代码去设置格式,也为我们的工作减少了负担。

IGC的关键特点

  1. 通用性:AIGC技术不仅限于特定任务,而是具备跨领域的应用潜力,从新闻撰写、剧本创作到艺术生成,都能胜任。
  2. 高定制化:通过学习特定数据训练,IGC可以模仿特定风格、语言习惯,为个性化内容定制化生成符合品牌或个人风格的作品。
  3. 高效性:自动化生成速度和规模生产内容,特别适合大批量大、实时更新的媒体需求,如新闻、广告素材快速制作。
  4. 创新:打破常规,探索未知的创意边界,创造出人类难以想象的组合或未见的风格,推动艺术与科学发现。

AIGC的应用实例

  • 艺术与设计:自动生成画作、海报、UI设计,如Adobe的AI辅助设计工具。
  • 媒体与写作:自动新闻报道、博客文章、脚本创作,如Narrativa、Quillimitate等平台。
  • 娱乐:音乐、视频合成,如Amper Music、DeepMind的音乐项目,AI生成MV。
  • 商业:定制化营销内容、产品描述、客服对话,提高个性化交互体验。
  • 教育:自适应性学习材料、模拟练习题库,提升教学资源多样性。

与ChatGPT的关联

ChatGPT作为大型语言模型的代表,是AIGC技术的关键驱动力之一,它通过学习海量文本理解、生成连贯的对话,使得机器在互动、内容创作上更贴近人类,如回答问题、写故事、提供建议、创作剧本等。这种能力使得AIGC从技术层面迈向实用,融入日常工具,改变我们消费、创作内容的方式。

结语

在AIGC时代,自然语言理解的飞跃不仅重塑了我们与技术的互动方式,还重新定义了信息的处理逻辑。这背后的推手,大型语言模型如ChatGPT,不仅能够流畅对话,更是在自然语言处理领域的重大突破,使得机器能理解并生成高质量文本内容,如豆瓣电影评论、情节摘要等,甚至情感分析。AIGC技术的进展,特别是自然语言处理部分,正逐步模糊了人机界限,使机器与人类沟通更接近无缝对接,从而在电影数据抓取、分析乃至于创作等任务中,带来前所未有的效率与深度。 AIGC的出现,不仅预示了人工智能技术能力的质变,更是对人类社会、文化、创意产业的深远影响。随着技术成熟,它将继续推动内容创作的民主化、个性化、高效与创新,同时提出版权、伦理等新议题。AIGC时代,正开启认知智能与艺术、信息的共生新篇章