Replicate沙盒生成AI视频流程

4 阅读3分钟

步骤 1:从图像开始

文本到视频的生成速度尚不及文本到图像。为了获得更可预测的视频输出,建议从图像开始,而不是仅靠文本提示并等待数分钟期望随机得到好结果。

你可以使用手机或家庭相册中的现有图像,或者通过某机构的图像模型生成一张。甚至可以微调模型以匹配特定角色、风格或美学。

datacte/flux-aesthetic-anime 模型是一个流行的微调模型,具有吉卜力工作室风格的动漫美学。将其导入沙盒:打开沙盒,点击模型选择器,然后选择“管理模型”。输入模型名称并回车,即可将其添加到沙盒中。

现在可以根据需要生成任意数量的图像,调整提示和参数直到获得满意的效果。此处使用的提示为:“一位金发DJ为欢乐跳舞的人群表演”。这将是视频的起点。

步骤 2:生成并优化视频

图像定稿后,即可让其动起来。

某机构的沙盒默认包含一些视频模型。使用 minimax/video-01-live,该模型尤其擅长保持动画角色的连贯性。

下载上一步中你最喜欢的图像,然后将其拖拽到 first_frame_image 字段中。在文本框中输入提示,描述你希望视频如何运动。这可以是对角色、背景或镜头运动的描述。

此处尝试了几种提示,最终确定为:“一位金发DJ为欢乐跳舞的人群表演,微笑着随音乐摆动头部和手臂”。这使角色能够动起来并与人群互动。

该模型的输入选项不多,但提示优化器会有帮助。可以尝试在启用和未启用提示优化器的情况下使用同一图像,观察结果的差异。

点击“运行”生成视频,这需要几分钟时间。如果需要,可以排队多次运行以获得相同输入的多个输出,或尝试不同的模型。

步骤 3:添加声音

获得满意的视频后,使用 zsxkib/mmaudio 模型即可轻松添加声音。像之前一样将该模型添加到列表中。下载视频,将其拖拽到 video 字段。

添加类似“人群欢呼,电子音乐”的提示。该音频模型会尝试匹配视频和提示,因此音乐有望与视频动作保持节拍一致。这一步比生成视频更快、成本更低。尝试几个不同的提示,看看你喜欢哪个。

步骤 4:分享视频

视频和声音都完善后,即可发布!分享到社交媒体,或作为更大项目的一部分。可以从沙盒中获取代码片段,并通过API生成图像、视频和音频。

该工作流使AI视频创作更加结构化和可重复。尝试不同的风格、角色和提示。FINISHED