AI 时代新的生产范式 | Build In Public (Day 2)

0 阅读6分钟

开篇.001.png

无实体产品的生产方式,将会被 AI 完全颠覆。

这是我今天搞了一天 AI 故事生成得到的感悟。

其实之前我也知道,还写过相关的一些内容,但是没有切身的体会。

这次是感受到了,必须要这样做,而不是仅仅”知道可以这样做“。

场景

今天的目标是能够得到质量稳定的绘本基础故事。

在这种简单的任务上,小模型已经基本够用了。我使用 Ollama 安装了qwen2.5:7b模型。它的好处是遵循 MIT 协议,可以使用,不会有侵权和法律的问题;另外比起其它模型,对中文更加友好。

但是以我电脑的性能,7B 的模型响应其实还是很慢。

生成400字到500字的故事,短提示词(只是一句话告诉它生成故事)就需要耗费 4 到 5 分钟的时间。

为了能够得到较高的故事质量,我尝试优化提示词工程,把提示词拉长到 2000 以上,需要 12 分钟左右才能给出一个回答。

尽管对于个人使用甚至是一些商业使用来说,即使每天只能生产一个绘本,也能够满足绝大多数的情况,但这方面的效率仍然需要改进和提升。这将会是我后续优化的方向之一,但目前先不考虑。

回到故事生成这里,它能够使用适合小孩子的温馨可爱的语言风格写作,并使用小动物作为角色进行描写,但它会出现很多让人哭笑不得的逻辑硬伤。

  1. 时间线破碎与瞬间跳跃:刚开始剧情还是早晨,一睁眼,结果抬头看见的竟然是月亮。
  2. 空间跳跃:在地面上说着话,下句话就跑到树顶去了。
  3. 主体故事的逻辑矛盾:比如主角找不到妈妈,因为觉得害怕,反而自己跑到了更危险的森林里去找。虽然小孩子确实有可能做出这种事来,但还是不要出现在绘本里比较好。
  4. 明显的说教内容:类似于我们以前看课文时的那种“总结思想”。
  5. 角色身份与行动不符:比如一只小松鼠却在喵喵叫。
  6. 情节逻辑混乱:明明角色是想往上爬,偏偏要扛着一个荷叶,一边接水一边往上跳。
  7. 出现负面词汇:一个给小孩子看的动画类角色,竟然说出“刚才差点摔死”这种话。

通过提示词工程来控制虽然有一定效果,但效果有限。因为逻辑上可能出现的漏洞实在太多。

遇到哪个问题,在提示词中修复后,下次又可能出现新的问题。

而我们又不可能把现实世界的所有逻辑都塞给一个 AI 模型。

也是这时,我终于体会到,现在对 AI 更加可行的落地方案。

可行方案

原本我认为,AI 最好用于容错率很高的场景中。

比如批量生成短视频。纯为流量不考虑内容的话,无限地自动生成和上传就可以了(不考虑平台限制的话)。只要火了一个,其它一千个都不火也没关系。

这不能算错,但是只能算是部分场景。

AI 是可以用于需要稳定输出质量的场景的,但是需要有额外的手段来保证它的产出。

我们需要一个检查节点;根据处理方式,又可以分成两个方向。

一是检查节点给出反馈意见,AI 对产出进行修改,循环直到满足要求。这和现有的生产加工流程一样。

二是 AI 只管输出,检查结点从中挑选出合格产品,再进入后续流程。这就是在 AI 时代,新出现的一种生产方式。

day2.001.png

传统范式

传统的生产方式,我们要尽量保证每一个产品都是合格的。

生产物理产品时,会对加工精益求精,尽量降低次品率。

在数字产品的生产上,我们一直延续着同样的做法。

文章要最终修改出一版最终稿。

图片要改了又改,直到客户点头。

软件开发中,无论是瀑布式开发还是敏捷开发,目的都是让项目一次成功。

这是因为生产一件产品的成本很高,我们不能承受失败。

AI 范式

但有了 AI 之后情况就不一样了。

AI 生产的成本非常低。

像我现在把 AI 服务部署在本地,成本几乎只是电力;即便使用云端模型,消耗的 token 也并不算是天文数字。 所以在利用 AI 生产虚拟产品的情况下,最有效率的生产方式就是:

不要过度追求稳定生成固定质量的内容,而是尽可能多地生成,再从中审查、挑选出合格的部分。

昨天的 Day 1 我谈到架构师不该乱花老板的预算;今天的 Day 2 我发现,通过架构设计让‘廉价的小模型’通过‘高效筛选’产出‘高价的内容’,这才是对计算资源真正的尊重。

新的瓶颈:检查点

既然质量由检查点保证,这个节点的作用就非常重要了。

像我的场景是绘本故事,我们人类当然可以做判断,但如果每一篇故事都由人工来审阅,实在太浪费精力了。而且,我们也很难保证自己的观念和审美就一定是完美的。

在实际生产中,很多节点也必须要有自动化处理的能力。

我目前在开发过程中使用了 Gemini 作为故事好坏的评判标准,将来我会考虑其它本地方案。

至于具体是靠提示词处理,还是通过其他工程手段、甚至是更换新模型来实现,之后再说。

顺带说一句,让 qwen2.5:7b 去评价自己生成的故事,大多数情况下它都会觉得非常 perfect,非常自恋,所以“自评”意义不大(学术上称之为Self-Correction Paradox)。


附上我生成的一堆故事里,看起来不错的两篇。这两个故事里也有些瑕疵,需要修改才能作为绘本素材,但已经算相当不错的成果了。

接下来我会转入图片生成部分。

day2.002.png

day2.003.png