谈谈我与AI的这几年

0 阅读9分钟

谈谈我与AI的这几年

前景概要

当我们讲起 AI,就离不开 OpenAI 的 ChatGPT,当然现在也常有人调侃它是 “CloseAI”。

大概是 2022 年,我也记不清是在哪里见过 GPT 这个信息,可能是某个 B 站视频、刷抖音、某篇 blog、某条推文。总之,这个词在我脑海里确实留下一块🧩碎片记忆。在此之前,传播得更广的,还是 AlphaGo 围棋战胜柯洁这件事。但更大的可能,还是我自己没有真正去关注这些前沿的东西。毕竟 GPT-3 早在 2020 年就已经发布,GPT-3.5 也在 2022 年 11 月正式推出。只是 GPT-3.5 横空出世虽然让科技圈炸开了锅,真正波及到圈外,其实还需要更多时间。即使当时很多媒体都在传播这个模型如何如何,大家也未必真的当回事。说来惭愧,作为一名即将毕业的程序员🐮🐎,我当时也算是圈外的一份子😓。

时间来到 2023 年年初,考研初试成绩出来后,我成功陪跑,并且实习证明还没有着落。于是便开启了社招海投之路 (在读大学生不要学我,尽可能走校招)。带入我当时的视角看自己,虽然考研失败了,但大学前三年专业课在 哔哩哔哩大学 也算自学深造过一阵子,自认为找一份实习工作应该不难。后来命运的牵引把我带去了 南京 这座城市。

在这座城市里,我结识了一些新朋友,浅尝了职场的险恶和不易,结束了一年多的恋情,也真正邂逅了 AI 的应用场景。以及,还有幸一睹南京一场漫天飞雪。

邂逅AI

3 月中旬入职南京某家公司实习时,我的毕设、论文几乎都还没开始动,而 5 月底就需要答辩。当时我的选题是做一个视频监控平台。对于前后端打通的能力,我那时已经算具备了,但“视频监控”却是我此前从未真正接触过的领域。更现实的是,我需要在两个月内,并且在实习工作之外的空余时间里,同时完成毕设作品、论文撰写、了结恋情这些任务。当然,最后这一个只能算隐藏副本任务了。

其实我当时也不是完全没计划。搭建前端页面,用组件库会很快,这不成问题;后端以前也做过一些作品,很多东西直接 copy 改改就能用。最核心的问题,是如何把视频监控这条链路打通。后来我去问导师,导师让我使用 海康威视 的摄像头来完成,学院刚好也需要采购摄像头,可以暂时借给我去做毕设。而论文,我当时的想法也很直接:直接让 GPT-3.5 来辅助解决。在我的构想下,大概一个月就能搞完,剩下的时间慢慢打磨细节。

Web 网站写得确实很快,配合 VSCode 中的 Copilot 插件,简直如虎添翼。那时候的 Copilot 还远没有今天这么强,分析上下文更多也就是单个文件级别,但拿来写一些工具函数、补齐样板代码已经很好用了。大概一个星期里,我每天下班后晚上捣鼓两三个小时,一个最基础简单的视频监控平台前后端就搭起来了。

接下来才是真正的重头戏:如何完成 nodejs 连接上摄像头,并将摄像头捕捉的画面传输到前端展示出来。就这个“打通路径”的问题,硬生生耗费了我一个月时间。

期间我使用 GPT 的中转站对话了无数次,在 CSDN 里屎里淘金,去海康威视官网翻 SDK 文档,使出浑身解数。中间还踩进了 RTSP 协议ONVIF 协议FFMPEG 工具、稳定推流方案、流媒体视频格式这些坑里。细节就不一一展开了,但我还记得当时的状态:每天熬到凌晨,有些天即使想破头、尝试了 N 种方案,进度也没有往前推进一点,但我居然还是挺享受那种进入心流的状态。现在回头看,那可能是我第一次这么具体地感受到,AI 并不是魔法,它不能替你直接把坑填平,但它确实能在你卡住的时候,帮你打开新的思路,至少让你不至于一个人闷头撞墙。

与此同时,并行的另一个任务,就是利用 GPT-3.5AI Chat 去辅助撰写我的论文。坦白说,当时给我的震撼非常大。真正震撼我的,不只是它能生成文本,而是它让我第一次感受到,原来一个复杂任务可以被快速拆解。我只需要给它一些大致描述和上下文,让它先写一个目录大纲,再根据大纲逐步推进;有不对的地方,我就继续多轮对话让它调整,再经过我自己的修修改改,最后就能用了。论文大概用了一周完成,纯耗时大概八个小时左右,更多时间其实花在把内容改得更人性化、更贴合项目细节上。对了,还得去知网找一些相关文献抄一点内容,避免查重率为 0 😂。这个过程就不细讲了,但最后能在这么短时间内完成毕设,AI 功不可没。

AI后续发展

  • 22 年,许多企业和个人开始热火朝天地做各种 AI 代码生成、智能提示插件,以及各类 AI Chat 聊天网站。

  • 23 年 3 月,一款基于开源编辑器 VsCode 深度改造的 AI 代码编辑器———— Cursor 应运而生,再一次颠覆了大家对 AI 应用的看法。当时我看了他们的采访访谈内容受益匪浅。再往后,国内各大头部企业也全部跟上,开始研发和捣鼓自己的 AI Agent 编辑器。

  • 23 年 6 月,Function calling 作为 OpenAI 官方明确发布的能力,给出了很多已有软件接入 AI、实现自然语言调度的路径。我也在第二家公司做的 低代码平台 产品中做过相关实践。

  • 24 年 11 月,由 Anthropic 正式命名、公开发布的协议———— MCP(Model Context Protocol) 出现,让模型开始真正具备“手脚”,能够触及外部世界。这是从 Function Calling --> Tools --> MCP 的一次演变,自此模型不再只是聊天,而是开始贯穿前后端去完成事情。

  • 25 年 10 月,仍然由 Anthropic 推出的 Agent Skills 概念出现。它让结构化 Prompt 开始具备规范化、可复用、可沉淀、模块化的能力。这属于轻度使用 skill,而重度使用 skill 时,内部甚至还能写一些脚本来增强模型的执行能力。

  • 26 年 1 月,OpenClaw 小龙虾🦞爆火,几乎所有媒体都在传播这个信息,使得它迅速出圈,仿佛养🦞都成了一种潮流。ClawHub 也随之诞生,一批批优秀的 Agent Skills 开源,让人看得眼花缭乱。

随着模型能力越来越强、上下文越装越多,这几年也冒出了越来越多技术和概念。我自己了解和接触到的,有:RAG 检索、Lora 微调、Ollama、MLX、翁家翌 Post-tranning Infra、Skill 渐进式披露、多 Agent 编排、LangChain、Embedding 等等。还有层出不穷的编辑器工具、GitHub 项目、提示词思想,真要说起来根本讲不完。而我更是用 AI,仅仅十一天就完成了这个博客系统。

国内这两年也涌现了很多优秀的模型和应用,比如 Qwen 千问MiniMaxGLM月之暗面Doubao豆包手机SeedanceTraeCodeBuddy 等等。

我现在最最最期待 DeepSeek V4 的出现✨!我已经苦 Claude 久矣😵‍💫。

未来

目前看来,AI 在编程这个领域,确实已经能替代掉一部分人做的一部分事了。但更多时候,它替代的不是“人”,而是那些重复、低效、机械的过程。真正决定结果的,依然还是人的知识广度、判断力,以及对全局的把握能力。

所以作为程序员,理论上我确实可以借助 AI 去实现各种垂直行业的工具,甚至把过去一些异想天开的想法慢慢做出来。很多时候,我缺的可能不再只是技术本身,而是一个真正值得投入的 idea。

但,下一个三年呢?

感慨

坦白说,我确实也像抖音上一些视频里说的那样,带着一点责怪的意思问过我的父亲:当年那么好的年代,你也去沿海城市工作过,为什么没有选择留下来,为什么没有去搞点正经事情,为什么没有在有一点资本之后尝试自立门户,那个时候机会明明那么多。

后来仔细想想,即使他当初真的留下来,也未必就一定会有继续追逐和折腾的勇气,更未必具备相应的能力和条件,何况人生里从来都不只有“机会”这一种变量。

历史很多时候就是一个螺旋上升的过程。现在类似的事情落到我自己身上,站在个人历史的十字路口,面对时代浪潮掀起来的破天巨浪,我也会忍不住反问自己:如果机会真的摆在我面前,我会不会做出和他相同的选择,又会不会走向相似的结局呢?

AI 也许给了我们这一代人更多工具,更多杠杆,更多以前不敢想的可能性。但工具终究只是工具,真正要做选择、承担结果、走完那条路的人,还是自己。

也许“我与 AI 的历程”,说到底并不只是我见证了一个技术浪潮,更像是在这个浪潮里,我第一次更清楚地看见了自己。