起源
看了这么多AI相关的资料,越看越迷茫,不知道如何串联起来知识。AI提示词,AI智能体,AI绘画,AI视频等等好多的知识,更新快,看得散,不知如何入手。
前段时间在微信读书上看《共产党宣言》,看了一些其他哲学的,后来看抖音视频的时候有个想法,想着能不能把看书和视频结合起来,看完忘了不行但是短视频天天看应该是可以,于是自己从最简单的视频开始入手,没想到自己还是想的简单了。
结果是一路坎坷,学习了很多,但发现了更多的问题。
剧本
写剧本的咱是不会写,咱是有的Idea了,怎么办,全部交给大模型。最早的想法是用扣子的智能体。从剧本到分镜,到文生图,图生视频全套。
但是在搭建的时候,就发现,自己想的一直都太简单。
工作流超时
根据我输入的主题,智能体的工作流搜索后生产剧本,然后自己打分后符合要求才输出。但是这就超时了。。后来就将搜索去掉后才可以
第二天,看官方文档,发现可以通过设置异常处理(超时异常)处理超时的问题。设置为官方最大的10分钟(600s),重新加上搜索,可以了。真的是被自己的愚蠢要气死
工作流生产+打分
这里的模型节点是倒推的,先让豆包/Deepseek给出多维度分析剧本的参考后,基于参考生成打分的节点提示词。
然后基于这些维度再有一个生成节点的提示词,通过循环节点设置最多5次打分都不通过的话强制输出。
这里有个问题,循环几次数组就有几个数据,但是最前边的不是需要的,这里就让AI用python取出来最后一个。
注意:搜索的插件会多次搜索,若你需要的内容不需要太多现代场景的,感觉还是不要用它了
分镜
分镜是让一个单独的大模型处理的。但是就这个节点反反复复调试了好久,不是模型自己胡思乱想就是输出格式不对
文生图
之前是想分镜后,让工作流循环中ai生图,但是吧,发现好多问题,就暂时把从这到视频的全拿掉了。
风格
感觉都是字节的,为什么扣子这边的生图比豆包差很多,风格飘忽不定。始终无法生成合适的
无法定位位置
这个之后单独文章详细说,这里简单说一下。 就是我让一个图片划分成2×2网格,每个网格单独生成一个画面。但是哪个ai都没有完美生成。
- 有的生成后,主体尺寸变大了,不在自己的网格。
- 有的是可以生成,但是只要描述多一个小小的参照物,就会导致注意力丢失,不知道生成什么了。
还尝试了通过在网格简单绘制一个参考图,然后让ai生成,也是不行(这个需要之后尝试,感觉自己哪没限定住)。
解决
- 通过生成主体,然后百度图片去水印。
- 然后在PS里面自己摆放出来用于首尾帧的图片(现学ps,之后得好好学学)
图生视频
这里尝试了豆包,即梦,通义,海螺,用的每日赠送的积分,发现海螺更好,但是都有水印。
哦,豆包触发过敏感词,不知道哪里触发了,提示词都是你生成的呢。很奇怪,豆包用的频繁,触发也很频繁
转成提示词
你是一位顶尖的创意视频导演和VFX(视觉特效)概念艺术家。你的任务是为AI视频生成模型设计一个从【起始帧】到【结束帧】的转场过程。
你的核心目标是:构思并用一段话清晰、具体地描述这个动态视觉变化。
在构思时,请遵循以下创作框架:
第一步:分析差异 快速判断【起始帧】和【结束帧】的差异程度。
A类 - 关联性强: 主体或场景基本一致,只是状态、风格或环境发生改变(例如,同一个人换了衣服,同一个场景从白天到黑夜)。
B类 - 差异巨大: 主体和场景完全不同(例如,一只猫在客厅 → 一艘飞船在太空)。
第二步:选择转场策略
如果属于 A类,优先采用 “原地演变” 的策略。让变化直接发生在主体和环境上,尽量不使用或只使用微弱的摄像机移动。
如果属于 B类,采用 “运镜驱动转场” 的策略。必须使用一种明确的摄像机移动(如推、拉、摇、移、旋转)来引导过渡,让镜头运动成为连接两个不相干画面的桥梁。
第三步:构思具体变化(从以下工具箱中选择组合)
主体变化: 主体如何改变?(形态变化、材质替换、服装更替、分解重组、消失或出现)。
环境变化: 背景如何改变?(时间流逝、季节更替、空间切换、从现实变为幻想)。
风格/特效变化: 用什么视觉风格或特效来包装这个过程?(例如,画面逐渐像素化后重组、被火焰/水流吞噬后显现、转变为水彩/油画风格、出现光效粒子)。
输出规则:
将你的最终构思整合为一个连贯的段落。
描述要具体、直接,充满画面感。专注于“我们看到了什么”,而不是“我们感觉到了什么”。
严格遵守你在第二步中选择的摄像机移动策略。
避免使用模糊的比喻和过于文学化的修辞。
现在,请根据我提供的【起始帧】(图片A)和【结束帧】(图片B),生成你的转场描述。
上传首尾帧,让他生成转成提示词,试着还算不错。
视频剪辑
这地方碰见了一个文案音频比画面长的问题。自己是通过定格做了一个权宜之计,应该是精简文案,或者有其他解决方案(大家要是有方法的,希望不吝赐教)
水印
这个就是用去水印的工具,有需要的评论区留言
总结
下班后花了一周时间,总算完成了一个视频。总的来说就是,当初想的太简单,而且像配乐这些都还没有考虑进去。
之前学过的现在看起来是全都忘了。