AI加持下的黑暗手记:一个小白的视频踩坑全景与人机磨合思考(非教学)

62 阅读6分钟

起源

看了这么多AI相关的资料,越看越迷茫,不知道如何串联起来知识。AI提示词,AI智能体,AI绘画,AI视频等等好多的知识,更新快,看得散,不知如何入手。

前段时间在微信读书上看《共产党宣言》,看了一些其他哲学的,后来看抖音视频的时候有个想法,想着能不能把看书和视频结合起来,看完忘了不行但是短视频天天看应该是可以,于是自己从最简单的视频开始入手,没想到自己还是想的简单了

结果是一路坎坷,学习了很多,但发现了更多的问题

剧本

写剧本的咱是不会写,咱是有的Idea了,怎么办,全部交给大模型。最早的想法是用扣子的智能体。从剧本到分镜,到文生图,图生视频全套。

但是在搭建的时候,就发现,自己想的一直都太简单。

工作流超时

根据我输入的主题,智能体的工作流搜索后生产剧本,然后自己打分后符合要求才输出。但是这就超时了。。后来就将搜索去掉后才可以

第二天,看官方文档,发现可以通过设置异常处理(超时异常)处理超时的问题。设置为官方最大的10分钟(600s),重新加上搜索,可以了。真的是被自己的愚蠢要气死

工作流生产+打分

这里的模型节点是倒推的,先让豆包/Deepseek给出多维度分析剧本的参考后,基于参考生成打分的节点提示词。

然后基于这些维度再有一个生成节点的提示词,通过循环节点设置最多5次打分都不通过的话强制输出。

这里有个问题,循环几次数组就有几个数据,但是最前边的不是需要的,这里就让AI用python取出来最后一个

注意:搜索的插件会多次搜索,若你需要的内容不需要太多现代场景的,感觉还是不要用它了

分镜

分镜是让一个单独的大模型处理的。但是就这个节点反反复复调试了好久,不是模型自己胡思乱想就是输出格式不对


文生图

之前是想分镜后,让工作流循环中ai生图,但是吧,发现好多问题,就暂时把从这到视频的全拿掉了。

风格

感觉都是字节的,为什么扣子这边的生图比豆包差很多,风格飘忽不定。始终无法生成合适的

无法定位位置

这个之后单独文章详细说,这里简单说一下。 就是我让一个图片划分成2×2网格,每个网格单独生成一个画面。但是哪个ai都没有完美生成。

  • 有的生成后,主体尺寸变大了,不在自己的网格
  • 有的是可以生成,但是只要描述多一个小小的参照物,就会导致注意力丢失,不知道生成什么了

还尝试了通过在网格简单绘制一个参考图,然后让ai生成,也是不行(这个需要之后尝试,感觉自己哪没限定住)。

解决

  1. 通过生成主体,然后百度图片去水印。
  2. 然后在PS里面自己摆放出来用于首尾帧的图片(现学ps,之后得好好学学)

图生视频

这里尝试了豆包,即梦,通义,海螺,用的每日赠送的积分,发现海螺更好,但是都有水印。

哦,豆包触发过敏感词,不知道哪里触发了,提示词都是你生成的呢。很奇怪,豆包用的频繁,触发也很频繁

转成提示词

你是一位顶尖的创意视频导演和VFX(视觉特效)概念艺术家。你的任务是为AI视频生成模型设计一个从【起始帧】到【结束帧】的转场过程。​
你的核心目标是:构思并用一段话清晰、具体地描述这个动态视觉变化。​
在构思时,请遵循以下创作框架:​
第一步:分析差异 快速判断【起始帧】和【结束帧】的差异程度。​
A类 - 关联性强: 主体或场景基本一致,只是状态、风格或环境发生改变(例如,同一个人换了衣服,同一个场景从白天到黑夜)。​
B类 - 差异巨大: 主体和场景完全不同(例如,一只猫在客厅 → 一艘飞船在太空)。​
第二步:选择转场策略​
如果属于 A类,优先采用 “原地演变” 的策略。让变化直接发生在主体和环境上,尽量不使用或只使用微弱的摄像机移动。​
如果属于 B类,采用 “运镜驱动转场” 的策略。必须使用一种明确的摄像机移动(如推、拉、摇、移、旋转)来引导过渡,让镜头运动成为连接两个不相干画面的桥梁。​
第三步:构思具体变化(从以下工具箱中选择组合)​
主体变化: 主体如何改变?(形态变化、材质替换、服装更替、分解重组、消失或出现)。​
环境变化: 背景如何改变?(时间流逝、季节更替、空间切换、从现实变为幻想)。​
风格/特效变化: 用什么视觉风格或特效来包装这个过程?(例如,画面逐渐像素化后重组、被火焰/水流吞噬后显现、转变为水彩/油画风格、出现光效粒子)。​
输出规则:​
将你的最终构思整合为一个连贯的段落。​
描述要具体、直接,充满画面感。专注于“我们看到了什么”,而不是“我们感觉到了什么”。​
严格遵守你在第二步中选择的摄像机移动策略。​
避免使用模糊的比喻和过于文学化的修辞。​
现在,请根据我提供的【起始帧】(图片A)和【结束帧】(图片B),生成你的转场描述。​

上传首尾帧,让他生成转成提示词,试着还算不错。

视频剪辑

这地方碰见了一个文案音频比画面长的问题。自己是通过定格做了一个权宜之计,应该是精简文案,或者有其他解决方案(大家要是有方法的,希望不吝赐教)

水印

这个就是用去水印的工具,有需要的评论区留言

总结

下班后花了一周时间,总算完成了一个视频。总的来说就是,当初想的太简单,而且像配乐这些都还没有考虑进去。

之前学过的现在看起来是全都忘了。