关于我是如何用AI创作一个1分半的短视频的

1 阅读17分钟

我最近做了一个大胆的尝试,使用AI来创作AI短视频。我曾经以为这个AI泛滥的时代,制作一条短视频不是轻而易举么?但是事实远远没有我想象得那么简单...

动机(为什么要作死)

原因想来主要有以下几点:

  • 作为二次元宅,我比较喜欢看动漫,自己也想实操做动漫
  • AI很火,火到哪里都是它,想融入,它正好是一个契机
  • 侥幸心理,流量为王的时代也想给自己谋求另一条出路

实施前的观望

这段时间,我浪迹于各大自媒体网站,B站、抖音、小红书,这些地方素材来得快,也有一些直播间在教。我大概花了一周左右的时间去蹲各种直播间,以及在这些平台上各个机构和组织投放的一些广告,我也去听过他们在平台之外的直播课。最终总结:

  • 平台直播间都有一些限制,能够讲到一些东西,但是都不多。比如抖音只能使用 豆包 + 即梦 + 剪映 来进行直播,除此之外如果有涉及到其他AI工具,直播间就会被封禁。另外这些主播都有一个共有的套路:讲前半段加粗糙的演示,生成图片和视频的提示词需要卡灯牌(刷等级),后半段会直接卖课(割韭菜),然后下播,第二天重复昨天的故事。
  • 导流到平台之外的直播课,比如B站投流的《Genji是真想教会你》,大概是这个主题,听过之后,套路大同小异,开始给你看他们制作的成片,配合一些预设好的提示词来给你播放他们做好的成片片段,之后也是卖课,进入传统的营销套路。
  • 价格:各个平台的卖课从993999元不等,服务也参差不齐,99元大多是录播课,自己去看;199399,大多是录播课加上口头的保证(有什么问题随便问);399~999,录播 + 直播 + 口头保证 + 接单;价格更高的说学成之后可以直接转到他们公司的,也有说一起合伙后续创作的。

果然直播的尽头是卖课(割韭菜),针对上述信息,仁者见仁智者见智,其中几分真几分假,全凭自己判断。我最终忍住了他们的金玉良言(忽悠),一方面我没有真正下定决心去闯这行,这是一个时间 + 成本的双重考验,另一方面对于他们的营销,我不是很相信,虽然或许但是可能能学到一些东西吧。

开始前的梳理

从我拿到(白嫖)到一些提示词后,我开始对整体的制作流程进行梳理,大致如下:

剧本 → 分镜 → 出图 → 出视频 → 配音 → 剪辑 → 成片

再拆细一点,大概是这样:

  1. 剧本来源

    • 自己写(AI来写剧本,大概3000字左右一集,一集大概3分钟)
    • 改编小说 / 段子 / 热点内容(各大小说平台签约:番茄、起点...)
  2. 剧本处理(转化为分镜脚本)

    • 用 AI 把原文改成适合短视频的节奏(分段、对话化),这里主要是抽取小说中的主要场景,将每一段场景加上描述、运镜、环境以及旁白
    • 一般来说3000字左右的剧本,大概会整理成10个左右的分镜脚本
  3. 人物 / 场景 / 道具提取

    • 这一步很关键,本质是在“结构化剧本”
    • 比如:人物长相、服装、场景风格
  4. 分镜生成

    • 每一句台词,对应一张画面
    • 加上镜头描述(远景 / 特写 / 运镜)
  5. AI 出图(我称之为“抽卡”)

    • 文生图
    • 图生视频
    • 控制一致性(最难的点之一)
  6. 图生视频

    • 让静态图动起来
    • 简单的运镜 / 动作
  7. 配音

    • 文本转语音
    • 情绪、语速、角色区分
  8. 剪辑成片

  • 拼接
  • 加转场、音效、字幕

软件、平台选择

Okay,到这里已经离制作只差一英里了,到了最重要的、也是考验财力的时候了,如果这关过不了,可以直接放弃。先说结论:

如果你想纯白嫖,做出一个哪怕一分钟的短剧,大抵是有点不可能。

分析上面的几步:

  1. 剧本来源:AI创作,可以是0成本。但是如果是和小说平台签约,你得如期交货,如果逾期,你得支付违约费用(成本一)。
  2. 剧本转脚本,脚本转分镜,提取任务、场景、道具,这些都可以用AI做,如果使用国内的,比如deepseek,豆包,可以是0成本。但是如果使用国外的,比如Gemini,gpt,你得首先科学上网(成本二)。
  3. 文生图,这里面可以使用的平台就有很多了,基本现在只要是一个AI Agent,好像都具备了生图的功能,比如豆包、即梦、Lovart、RunningHub、HaiLuo,我没有尝试所有的,只是用了即梦 + Lovart生图,综合体验下来,Lovart内置Nano Bananer 2.0, 比即梦的Seedree 4.0更加精准点。这里的成本后续在图生视频中提及。
  4. 图生视频,这是最重要的。一般选中一个平台之后,文生图以及文生语音,图生视频都会有包含,但是图生视频是一定得付费的,想白嫖的也有,比如豆包一天可以生成3个10秒的视频,但是不太可控。(成本三)
  5. 视频剪辑,我觉得最好入门的是国内剪映,可能我没有接触其他的,比如PR,我大概摸索了一个小时,就能基础地使用了。这就是(成本四)

综合算下费用,这里我们假设都使用国内的一些软件来操作,所以忽略成本一、成本二:

  • 文生图、图生视频:这里可以选择的平台很多。
  • 最有名的就是即梦,Seedance2.0 生视频已经🔥上天了,但是费用也是真的贵,基础会员79元一个月,每月800积分,到这里你可能对800积分没有概念,我举个实际的例子,生成一条15s的1080P视频,使用Seedance2.0 Fast模型,会消耗75积分,也就是说,你撑死能够生成10条视频,大约150秒,这是你运气好抽卡(图生视频)一次不歪的情况;高级会员一月750元,8000积分。这里另外提一点,即梦的基本会员只能简单使用文生图了,想用它来生成视频,基本不太可能,因为你可能因为一条15秒的视频要排队3天,我一个星期前的视频还在排队中😅😅😅。
  • Lovart,智能体综合平台,能够选择很多模型,比如Seedance 2.0,Veo等等,我只使用过它的免费额外,用来生成图片,这里忽略不讲,每月79$的订阅费让我对它望而却步。
  • RunningHub,同上。
  • 小云雀,也是一个智能体综合平台,可以使用Seedance2.0 来生成视频,但是无法垫音频,首月39元。
  • Elevenlabs,坑过我,智能体综合平台,首月6$,30000积分,咋一看积分是真的多,但是基础会员一天只能使用Seedance 2.0 Fast生成一个15秒的720P视频,这一个视频需要用到23000多积分,完犊子,生成了一个看了效果之后,马上取消订阅了。另外还有一些模型,比如Veo,只能生成6s的视频,一天可以生成30几个吧,但是只能基于首尾帧,就是太麻烦了。
  • 文生音频:这里基本各大制作视频网站,比如即梦、小云雀,如果你已经买了他们的会员,这里花销的费用倒是不大。免费的:Any Voice,有字数限制,可以使用上传的音色,需要排队,但是一般来说很快。

第一次初尝试

我最开始在番茄达人中心翻了几部小说,我发现字数都太多了,我实在没有信心还是一个小白的情况下能够把它创作完,放弃这条路。

所以我选择了让豆包给我生成一个大约3000字,关于 末日题材 的一个微型故事,按照上述的步骤,将故事生成脚本,将脚本设计为多分镜,提取道具和场景、人物,一切都朝着好的方向在发展。

我选取了第一个分镜,大致为下面这样:

【分镜 1】:水面漂浮的母亲遗物
出场人物:林夏
场景描述:护城河岸边,雨后泥泞,夏末阴天冷光,水面泛着灰绿色波纹
时间轴拆解:
0-4 秒:【主观视角推轨】水面缓缓飘来蓝布包,拉链半开,(画外音:这是我妈每天买菜用的包,她从不离身)。
4-8 秒:【近景手持】林夏蹲下身,膝盖陷进泥里,手伸向水面,指甲深深抠进岸边泥土。
8-12 秒:【极焦特写】蓝布包里露出半块变硬的桂花糕,和一本泡烂的假会计账本,(画外音:她一辈子细心,绝不会把假账带在身上)。
12-15 秒:【慢动作】林夏的手停在半空,肩膀剧烈颤抖,一滴眼泪砸进泥里,溅起细小的泥点。

文生图:刚好赶上了即梦 “1元7天试用基础会员的活动”,725积分,啪啪啪一顿操作,我三下五除二就把人物图全部生成好了,包括面部特写和人物三视图(主视、侧视、背视)。

图生文:有了上面的分镜描述以及人物图、道具图、场景图,我兴致冲冲地使用即梦去生成视频,想着725积分,如果一次75积分,也可以大概生成9次左右的视频片段。但是事实是,如果你只是基础会员,你可能需要等待超过3天的排队,为了一段仅仅只有15秒的视频。Oh, ****,放弃还是继续冲(充),我纠结了一番之后,决定先降级去豆包试试免费的(豆包一天可以调用即梦的Seedance2.0 Fast生成大约3段视频,每段视频10s,但是无法准确垫图、垫声音)。

视频生成完了,哟,效果还可以嘛,视频直接做了配音、音效、台词、转场等等。只有一处不是特别合理,“蓝色的包是从远处逐渐从河底飘上来的”。我信心大增,看来完成一个3分钟的视频那不是轻而易举???

开工大吉

观望和尝试了一把之后,我决定开始正式开搞了。工欲善其事,必先利其器,我充了如下会员:

  • 即梦新手保护活动:1元7天免费体验基础会员(本来以为能直接搞定的,毕竟有725积分)
  • 小云雀:39元新手保护期,第二个月恢复到79元。后面被Elevenlabs坑过之后,又花了50大洋买了500积分
  • Elevenlabs: 原因是小云雀的积分用完了,我发现它首月只需要花6$就能有30000积分,同时支持Seedance2.0的模型来生成视频,果断入手后发现被坑了,生成一个15s的视频竟然要花费20000多积分
  • 剪映专业版:首月保护6元,对于我来说,物超所值

开搞开搞。

理想与现实

我起初打算继续上面的剧本来创作视频,但是发现就我那点可怜的积分,估计做不完一集。那这样的话,不如搞点比较独立的,无需上下集的,那就搞首李白的《静夜思》吧。

我的创作思路大致不变:

  • 豆包生成了一个李白创作《静夜思》的剧本
  • 将生成好的剧本设计成分镜脚本
  • 提取每个脚本中的人物、道具、场景
  • 将每个分镜脚本生成分镜描述,包括运镜、场景描述、人物动作、每个镜头的时长
  • 将每个分镜描述词拿到小云雀中,垫上生成的人物和场景、道具,按下确认键

成功了吗?

想什么呢?光第一个说书先生的镜头我就重复生成了3次,积分哗啦啦一下从725干到了500,然而,我第一个分镜的视频还是没有生成好。

怎么办?

一次生成不了,我凑凑总行了吧,我把3个视频中能用的部分裁剪下来,然后拼接起来,缝缝补补,总算是完成了第一个。

哭笑不得的插曲

有一个分镜是这样描述的:

【分镜 2】:「太白仗剑・辞亲远游」
场景描述:开元十四年深秋长江江面,冷调江雾柔光,侧逆光来自江面落日;26 岁白衣佩剑的青年李白孤身立于扁舟船头,画面全程仅锁定李白单人,无其他人物
时间轴拆解(Timeline):
0-4 秒:【中景环绕】360 度慢环绕运镜,李白立于船头,江风吹起衣袂与发梢,手按腰间佩剑,目光望向远方江面 +(画外音 / VO:话说大唐开元十四年深秋,太白公年方二十六,正是仗剑去国、辞亲远游的年华)
4-8 秒:【近景推轨】镜头匀速拉近至李白侧脸,下颌线紧绷,眼神里满是少年意气,指尖摩挲佩剑剑穗 +(画外音 / VO:他顺长江东下,一路向着扬州而去)
8-12 秒:【远景固定】镜头拉至船尾主观视角,前方是水汽氤氲的扬州城郭轮廓,江水拍打着船身,李白的白衣背影立于船头 +(画外音 / VO:千里江行,前路是繁华盛景,身后是回不去的蜀地故乡)
12-15 秒:【背影定格】李白抬手望向远方扬州城,手臂保持抬起的姿态,预留下个镜头繁华与孤寂对比的衔接趋势

前面的两个镜头还算正常,第3个镜头就有点离谱了,是这样的:

1.png

再来一次,给我干成这样了,完犊子,直接整成杨过了。

2.png

然后我连夜在分镜前加了强制约束的提示词:

【强制约束:​李白全程站扁舟船头中央,绝对不进船舱 / 不碰船桨 / 不移动位置;船只全程长江主航道顺流直行,绝对不旋转 / 不逆转 / 不靠近岸 / 不搁浅;画面只有​李白1 人,无其他人物;所有建筑纯唐代风格,绝对禁止任何现代建筑 / 物品 / 服饰;​李白只做提示词明确写的动作,禁止加任何额外动作】 

​前面3个镜头都没有问题了,结果第4个镜头给我干成这样了,说好的抬手远望了,你这是要指天指地指空气啊。或许需要加上“抬手在眉间做眺望的姿势”,不过后续这段我就直接剪掉了。

3.png

还有一个镜头是这样的,我让李白起床蹲下去摸摸地面的月光,结果是这样的,直接整出两个来。

4.png

这样的

5.png

诸如此类的问题还有很多,有时候可能是提示词遗漏了某个关键点,AI自由发挥,有的时候是你即使限定了提示词,AI也可能自由发挥。

唯一的安慰

在做文字配音时,我需要将第一个分镜中说书人的音色提取出来,然后使用其他文本来生成其他视频片段的画外音。Google最开始给我推荐的就是Elevenlabs,可以支持上传自定义的音色,但是当我一步一步配置之后,发现最后一步需要 充会员** ,**所以我阶段性放弃(因为我后续也确实充了会员)。

这里重点表扬 Any Voice,解了我的燃眉之急,它可以上传自定义音色,但是有120个字数的限制,同时也需要排队,但是排队时间一般10几秒,跟即梦的排队几天比起来,简直不要太舒服。

总结与回顾

​最终依旧是按照缝缝补补的套路,勉勉强强将这个短视频完成了,其中不乏穿帮的镜头。整个视频没达到3分钟,合计1分39秒,大概每秒花费1元,不连贯的地方用了大量的转场、拼接。在这里可以看效果(上传视频太麻烦,如果感兴趣可以去抖音看看):

7.17 PXZ:/ f@b.Nj 03/15 AI短视频创作(烧钱的玩意) 穿帮就穿帮吧,实在是经费在燃烧@皮皮的皮妈 # ai短视频制作 # AI抽卡 # 古诗词鉴赏  v.douyin.com/UW7TKwPnj2o… 复制此链接,打开Dou音搜索,直接观看视频!

经验总结

  • 提示词很关键,做短视频也需要很细心,尽量在分镜生成视频之前需要仔细检查,每一个小细节都可能让AI有自由发挥的用武之地
  • 人物、场景一致性:需要垫图,先在分镜中提取出场景、人物三视图之后,以后如果需要用到相同的场景和人物,就需要明确指定
  • 配音:配音可以让AI先生成第一个片段,一般来说都是符合人物音色,然后再通过提取人声,做声音克隆,可以用作后续的旁白和配音
  • 很少或者几乎不可能一次就生成你想要的完整片段,针对合适的部分,可以通过裁剪 + 转场的方式,避免重复抽卡浪费积分
  • 心性很重要,这是一个细活,不要求特别精细,对专业的要求并不算太高,普通人也可以做

值得继续做下去么?

​如果个人只是兴趣驱动,做下去的热情估计很难维持,这是一个时间 + 成本的双重考验,需要大量的时间和不菲的投入才能完成的事,而且就算让你做出来了,后续的推广和营销也是一笔不小的投入,路人可以劝退,土豪随意。所以一般如果是想专门投入干这行的,可以去找找团队和机构,或者合伙去创作,这样精力和财力都可以分摊。

有成功的个人案例么?

个人创作者能够成功么?有啊,抖音上好多的创作者其实都是个人的,但是最近的风向基本上都是个人创作者已经发出了断更的通告。

  • 一方面现在算力成本特别高(开始割韭菜了),前期的个人创作者都是吃了阶段性的红利,能够靠着较低的成本和不俗的流量来平衡收入和支出,甚至可以一夜暴富,但是现在确实不可同日而语
  • 另一方面,个人创作者不能拿到小说平台的版权了,无法通过个人签约来创作视频,唯一的出路可能就是自己创作,但是难度极高
  • 最后侵权的事件越来越多,自己辛辛苦苦搞了大半个月,结果被别人白嫖发布之后反过来告你侵权

最后的建议

总之,现阶段对于要个人创作,一夜暴富的建议是:玩玩可以,如果下定决心要投入这行最好先深思熟虑一下