使用Veo 2和Imagen 3实现先进的视频与图像生成
Veo 2:最先进的视频生成
Veo 2能够创建涵盖广泛主题和风格的高质量视频。在与领先模型进行的人工评估对比中,Veo 2取得了最先进的结果。
该模型增强了对现实世界物理规律以及人类运动与表情细微差别的理解能力,从而提升了整体细节与真实感。Veo 2理解电影摄影的独特语言:在提示中指定类型、镜头或电影效果,Veo 2将以最高4K分辨率、长达数分钟的长度生成相应内容。
例如,要求一个低角度跟踪镜头滑过场景中央,或特写显微镜前科学家的面部,Veo 2都能生成。在提示中加入“18mm镜头”,Veo 2会构建广角镜头效果;加入“浅景深”,则会虚化背景并聚焦主体。
视频模型常产生“幻觉”(如多余手指或意外物体),Veo 2较少出现此类问题,使输出更真实。
安全与负责任开发的理念指导了Veo 2。通过VideoFX、YouTube和Vertex AI逐步推出,以便识别、理解和改进模型的质量与安全性。
与所有图像视频生成模型一样,Veo 2的输出包含不可见的SynthID水印,用于标识AI生成内容,减少错误信息和归属错误的风险。
新版Veo 2能力已上线Google Labs的视频生成工具VideoFX,并扩大了访问用户范围。可访问Google Labs加入等待名单。计划明年将Veo 2扩展到YouTube Shorts及其他产品。
Imagen 3:最先进的图像生成
改进后的Imagen 3图像生成模型能够生成更明亮、构图更佳的图像,能以更高精度呈现从写实到印象派、抽象到动漫等多种艺术风格。该升级版更忠实地遵循提示,渲染更丰富的细节和纹理。在与领先图像生成模型的人工对比评估中,Imagen 3达到了最先进水平。
即日起,最新Imagen 3模型将在Google Labs的图像生成工具ImageFX中向100多个国家全球推出。
Whisk:通过图像提示实现创意的有趣新工具
Whisk是Google Labs的最新实验工具,允许用户输入或创建表达主题、场景和风格的图像,然后将它们组合并重新混合,创造出独特的作品,例如数字毛绒玩具、珐琅徽章或贴纸。
在底层,Whisk结合了最新的Imagen 3模型与Gemini的视觉理解和描述能力。Gemini模型自动为用户的图像编写详细的标题,然后将这些描述输入Imagen 3。该过程允许用户以有趣的新方式轻松重新混合主题、场景和风格。
Whisk于今日在美国推出。FINISHED