Gemini应用新功能:AI音乐生成技术解析

6 阅读4分钟

自从Gemini应用推出以来,一直在打造通过图像和视频来激发创造力的工具。今天,将介绍下一步计划:自定义音乐生成。由某深度思维机构开发的最新生成式音乐模型Lyria 3,即日起在Gemini应用中开启Beta测试。只需描述一个想法或上传一张照片,比如“一首关于寻找另一半的袜子的喜剧R&B慢歌”,几秒钟内,Gemini就会将其转化为一段高质量的、朗朗上口的音乐片段。为了进一步拓展创意边界,甚至可以要求Gemini从上传的内容中汲取灵感。

Lyria 3在音频生成方面,相较于之前的Lyria模型在三个重要方面进行了改进:

  • 无需提供歌词!模型将根据提示词自动生成。
  • 可以对风格、人声和节奏等元素进行更多的创意控制。
  • 可以创作出更真实、音乐上更复杂的片段。

具体的使用方式如下:

  • 文本生成音乐:描述特定的音乐风格、情绪、内部笑话或回忆,即可创作出带有歌词或纯音乐的独特片段,完美契合用户想要的感觉。例如:“我很怀旧。为我的母亲创作一首关于我们童年美好时光以及她亲手做的炸大蕉的回忆的歌。做成一首有趣的、带有真正非洲风情的Afrobeat风格歌曲。”
  • 照片和视频生成音乐:上传一张照片或一段视频,Gemini会根据其中的内容,创作出与画面情绪完美贴合的歌词和音乐。例如:“用这些照片为我创作一首关于我的狗Duncan在树林里徒步旅行的歌。”

Gemini应用会生成长达30秒的音乐片段,并由某技术机构的Nano Banana模型生成自定义封面艺术。这使得用户可以通过下载或直接点击分享链接,轻松与朋友分享。创作这些片段的目标并非打造音乐杰作,而是提供一种有趣、独特的自我表达方式。

创作者也可以在YouTube的Dream Track功能中探索Lyria 3。该功能已在美国推出,并正在向其他国家的YouTube创作者开放。Lyria 3将提升每条独特的Shorts配乐的质量。无论是创作一段歌词还是一个氛围背景音乐,能够更好地定制配乐将使创作者的作品更上一层楼。

全新的音频验证能力

在Gemini应用中生成的所有音乐片段都嵌入了SynthID,这是一个用于标识某机构AI生成内容的难以察觉的水印。同时,还提供了更多工具来帮助识别AI内容,将Gemini应用中的验证能力从图像和视频扩展到音频。只需上传一个文件并询问它是否由某机构的AI生成,Gemini就会检查SynthID水印,并运用其自身的推理能力给出答复。

负责任地开发生成式AI的承诺

自2023年首次推出Lyria以来,一直致力于与音乐界合作,负责任地开发这项技术。通过这些合作以及在Music AI Sandbox等实验中的探索,学到了很多。在训练Lyria 3的过程中,始终高度重视版权保护和合作伙伴协议。

Lyria 3的音乐生成功能旨在用于原创表达,而非模仿现有艺术家。如果提示词中提到了特定艺术家的名字,Gemini会将其视为广泛的创意灵感,并创作出风格或情绪相似的片段。模型中内置了过滤器,用于检查输出内容是否与现有作品冲突。鉴于这种方法可能并非万无一失,用户可以举报任何可能侵犯自身或他人权利的内容。此外,所有用户在使用产品时,都必须遵守相关的服务条款和生成式AI禁止使用政策,这些政策禁止侵犯他人的知识产权和隐私权。

Lyria 3现已在Gemini应用中面向18岁及以上用户开放,支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语,并计划在未来扩展更多语言并提升质量。该功能于今日在桌面端上线,并将在未来几天内推广至移动应用。某机构AI Plus、Pro和Ultra的订阅用户将享有更高的使用限额。

在Gemini应用中引入音乐生成功能,旨在帮助用户的日常生活增添有趣、个性化的配乐。FINISHED