爬虫,传统编程与提示词工程的碰撞

131 阅读4分钟

前言

AI作为当代越来越火爆的关键词,已经渗透到各行各业,针对传统编程,它已经遥遥领先,提示词工程出现在行业当中,我们应当如何拥抱!?

豆瓣电影

    从编程思维来到AI思维

movie.douban.com/chart

爬虫问题

    • url  浏览器?  普通用户思维
  •     程序思维 发出一个http请求  html  字符串
    • 对字符串做查找正则
  •     伪代码
  •     - 聚焦  .article   movies 列表 其他的可以丢弃
  •     - table 列表 电影列表
  •     - title  pic。。。。
    • 电影列表列表
  •     JSON数组
  •     [{
  •         name: '破墓',
  •         pic: '',
  •         desc: '',
  •         score: 3.5
  •     },
  •     ...
  •     ]

编程素养  

    - 本质和解决方案 http请求  408     - 按代码顺序,细分-> 语句(语言,语法)         伪代码     - 调试并返回结果 ·

    - npm init -y  初始化项目     - npm install x-crawl 爬虫模块

  • AIGC素养

  •     有哪些编程模块可以被替代?50%的编程流程不需要了

  •     ### 现在可以基于LLM 大模型编程(全网的知识 )

  •     - chatgpt ?  以前我们主要是对话 ,

  •         openai AIGC 自然语言处理

  •     - 一些coding 编程流程工作  http 请求

  •     - html字符串响应后, AIGC 生成式 比传统流程牛逼多了

  •     - 电影的对象组织

  •         详细, 清晰的表达我们的需求,交给LLM 即可

  •         封装, 编写 Prompt    AI代码

  •         - 有一段movie html 喂数据

  •         - 告诉LLM 它是什么

  •         - 标题, 图片.....

  •         - 返回

  • 这里是电影列表。获取需要电影名(name),封面链接(picture),简介(info), 评分(score),评论人数(commentsNumber)。 请使用括号的单词作为属性名,以JSON数组的格式返回

[
    {
      "name": "破墓",
      "picture": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2905896429.webp",
      "info": "2024-02-16(柏林电影节) / 2024-02-22(韩国) / 崔岷植 / 金高银 / 柳海真 / 李到晛 / 全镇基 / 洪瑞俊 / 李大卫 / 小山力也 / 金智安 / 金善映 / 韩国 / 张在现 / 134分钟 / 破墓 / 悬疑 / 惊悚 / 恐怖 / 张宰贤 Jae-hyun Jang / 韩语 / 日语 / 英语",
      "score": "6.7",
      "commentsNumber": "105556人"
    },
    {
      "name": "对你的想象",
      "picture": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2905327559.webp",
      "info": "2024-03-16(西南偏南电影节) / 2024-05-02(美国网络) / 安妮·海瑟薇 / 尼古拉斯·加利齐纳 / 艾拉·鲁宾 / 安妮·玛莫罗 / 瑞德·斯科特 / 帕芮·马费尔德 / 乔丹·亚伦·霍尔 / 玛蒂尔达·吉安诺普洛斯 / Meg Millidge / 奇克·曼诺哈 / Ray Cham / Jaiden...",
      "score": "5.9",
      "commentsNumber": "17243人"
    },
    {
      "name": "哥斯拉-1.0",
      "picture": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2900227040.webp",
      "info": "2023-11-01(东京国际电影节) / 2023-11-03(日本) / 神木隆之介 / 滨边美波 / 山田裕贵 / 青木崇高 / 吉冈秀隆 / 安藤樱 / 佐佐木藏之介 / 西垣匠 / 中村织央 / 谷口翔太 / 须田邦裕 / 水桥研二 / 阿南健治 / 饭田基祐 / 远藤雄弥 / 田中美央 / 桥爪功...",
      "score": "6.6",
      "commentsNumber": "22295人"
    },
    {
      "name": "彷徨之刃",
      "picture": "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2907398842.webp",
      "info": "2024-05-17(中国大陆) / 王千源 / 王景春 / 齐溪 / 张宥浩 / 王天辰 / 周政杰 / 阿如那 / 吴双 / 中国大陆 / 陈卓 / 2024-05-03 16:17 / 107分钟 / 剧情 / 犯罪 / 悬疑 / 杨薇薇 Weiwei Yang / 李佳颖 Carol Li / 徐翔云 Xiangyun Xu / 陈卓 Zhuo Chen / 汉语普通话...",
      "score": "(尚未上映)",
      "commentsNumber": ""
    },
    {
      "name": "银河写手",
      "picture": "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2905680871.webp",
      "info": "2023-07-24(FIRST青年电影展) / 2024-03-30(中国大陆) / 宋木子 / 合文俊 / 李飞 / 李文茹 / 宋晓亮 / 张皓森 / 刘默然 / 祁又一 / 魏来 / 白志强 / 李阔 / 单丹丹 /  尹思淇 / 沈腾 / 中国大陆 / 李阔 / 单丹丹 / 103分钟 / 106分钟(影展版) / 剧情 / 喜剧...",
      "score": "6.6",
      "commentsNumber": "34154人"
    },
    {
      "name": "老狐狸",
      "picture": "https://img1.doubanio.com/view/photo/s_ratio_poster/public/p2900908599.webp",
      "info": "2023-10-27(东京国际电影节) / 2023-11-24(中国台湾) / 白润音 / 刘冠廷 / 陈慕义 / 刘奕儿 / 门胁麦 / 黄健玮 / 温升豪 / 班铁翔 / 杨丽音 / 傅孟柏 / 高英轩 / 庄益增 / 张再兴 / 许博维 / 管罄 / 钟瑶 / 游珈瑄 / 郑旸恩 / 戴雅芝 / 姜仁 / 萧鸿文...",
      "score": "8.1",
      "commentsNumber": "48851人"
    }
]

这即是运用AI对html数据转换成JSON的结果

总结

  • LLM大模型优先, 24年最火的就是基于大模型的编程     - 擅长自然语言处理 NLP 机器学习, 人人平等     - 生成式的文字、图片、视频等任务,交给AIGC     - openai \通义千问等sdk 提供接口

  • 基于冯诺依曼,非AIGC任务,交给传统编程流程来做

AIGC 全栈  = 编程 + AIGC(Prompt Enginnering)

驱动LLM工作的核心,就是给它一段合适的提示词(prompt) LLM = coding copilot