AI加持下的黑暗手记：一个小白的视频踩坑全景与人机磨合思考（非教学）起源看了这么多AI相关的资料，越看越迷茫，不知道如

起源

看了这么多AI相关的资料，越看越迷茫，不知道如何串联起来知识。AI提示词，AI智能体，AI绘画，AI视频等等好多的知识，更新快，看得散，不知如何入手。

前段时间在微信读书上看《共产党宣言》，看了一些其他哲学的，后来看抖音视频的时候有个想法，想着能不能把看书和视频结合起来，看完忘了不行但是短视频天天看应该是可以，于是自己从最简单的视频开始入手，没想到自己还是想的简单了。

结果是一路坎坷，学习了很多，但发现了更多的问题。

剧本

写剧本的咱是不会写，咱是有的Idea了,怎么办，全部交给大模型。最早的想法是用扣子的智能体。从剧本到分镜，到文生图，图生视频全套。

但是在搭建的时候，就发现，自己想的一直都太简单。

工作流超时

根据我输入的主题，智能体的工作流搜索后生产剧本，然后自己打分后符合要求才输出。但是这就超时了。。后来就将搜索去掉后才可以

第二天，看官方文档，发现可以通过设置异常处理(超时异常)处理超时的问题。设置为官方最大的10分钟(600s)，重新加上搜索，可以了。真的是被自己的愚蠢要气死

工作流生产+打分

这里的模型节点是倒推的，先让豆包/Deepseek给出多维度分析剧本的参考后，基于参考生成打分的节点提示词。

然后基于这些维度再有一个生成节点的提示词，通过循环节点设置最多5次打分都不通过的话强制输出。

这里有个问题，循环几次数组就有几个数据，但是最前边的不是需要的，这里就让AI用python取出来最后一个。

注意：搜索的插件会多次搜索，若你需要的内容不需要太多现代场景的，感觉还是不要用它了

分镜

分镜是让一个单独的大模型处理的。但是就这个节点反反复复调试了好久，不是模型自己胡思乱想就是输出格式不对

文生图

之前是想分镜后，让工作流循环中ai生图，但是吧，发现好多问题，就暂时把从这到视频的全拿掉了。

风格

感觉都是字节的，为什么扣子这边的生图比豆包差很多，风格飘忽不定。始终无法生成合适的

无法定位位置

这个之后单独文章详细说，这里简单说一下。就是我让一个图片划分成2×2网格，每个网格单独生成一个画面。但是哪个ai都没有完美生成。

有的生成后，主体尺寸变大了，不在自己的网格。
有的是可以生成，但是只要描述多一个小小的参照物，就会导致注意力丢失，不知道生成什么了。

还尝试了通过在网格简单绘制一个参考图，然后让ai生成，也是不行(这个需要之后尝试，感觉自己哪没限定住)。

解决

通过生成主体,然后百度图片去水印。
然后在PS里面自己摆放出来用于首尾帧的图片(现学ps,之后得好好学学)

图生视频

这里尝试了豆包，即梦，通义，海螺，用的每日赠送的积分，发现海螺更好，但是都有水印。

哦，豆包触发过敏感词，不知道哪里触发了，提示词都是你生成的呢。很奇怪，豆包用的频繁，触发也很频繁

转成提示词

你是一位顶尖的创意视频导演和VFX（视觉特效）概念艺术家。你的任务是为AI视频生成模型设计一个从【起始帧】到【结束帧】的转场过程。
你的核心目标是：构思并用一段话清晰、具体地描述这个动态视觉变化。
在构思时，请遵循以下创作框架：
第一步：分析差异 快速判断【起始帧】和【结束帧】的差异程度。
A类 - 关联性强： 主体或场景基本一致，只是状态、风格或环境发生改变（例如，同一个人换了衣服，同一个场景从白天到黑夜）。
B类 - 差异巨大： 主体和场景完全不同（例如，一只猫在客厅 → 一艘飞船在太空）。
第二步：选择转场策略
如果属于 A类，优先采用 “原地演变” 的策略。让变化直接发生在主体和环境上，尽量不使用或只使用微弱的摄像机移动。
如果属于 B类，采用 “运镜驱动转场” 的策略。必须使用一种明确的摄像机移动（如推、拉、摇、移、旋转）来引导过渡，让镜头运动成为连接两个不相干画面的桥梁。
第三步：构思具体变化（从以下工具箱中选择组合）
主体变化： 主体如何改变？（形态变化、材质替换、服装更替、分解重组、消失或出现）。
环境变化： 背景如何改变？（时间流逝、季节更替、空间切换、从现实变为幻想）。
风格/特效变化： 用什么视觉风格或特效来包装这个过程？（例如，画面逐渐像素化后重组、被火焰/水流吞噬后显现、转变为水彩/油画风格、出现光效粒子）。
输出规则：
将你的最终构思整合为一个连贯的段落。
描述要具体、直接，充满画面感。专注于“我们看到了什么”，而不是“我们感觉到了什么”。
严格遵守你在第二步中选择的摄像机移动策略。
避免使用模糊的比喻和过于文学化的修辞。
现在，请根据我提供的【起始帧】（图片A）和【结束帧】（图片B），生成你的转场描述。

上传首尾帧，让他生成转成提示词，试着还算不错。

视频剪辑

这地方碰见了一个文案音频比画面长的问题。自己是通过定格做了一个权宜之计，应该是精简文案，或者有其他解决方案(大家要是有方法的，希望不吝赐教)

水印

这个就是用去水印的工具，有需要的评论区留言

总结

下班后花了一周时间，总算完成了一个视频。总的来说就是，当初想的太简单，而且像配乐这些都还没有考虑进去。

之前学过的现在看起来是全都忘了。