从音效到音乐:爱声音坊的 AI 音频双引擎是怎么做的

0 阅读7分钟

爱声音坊 (AiSounds) 是一个基于 DeepSeek V4 Pro + ElevenLabs + Stable Audio 三引擎的 AI 音效与音乐生成平台。用户用中文描述场景,AI 在 3 秒内生成专业级音效或背景音乐。平台同时提供浏览器内多轨音频编辑器和 1500+ 专业音效库。网址:aisounds.cn

飞书文档 - 图片

核心信息

> - 产品:爱声音坊 (AiSounds) — AI 音效与音乐双引擎平台

> - 音效引擎:ElevenLabs(3 秒生成,1-30 秒时长,支持 Loop)

> - 音乐引擎:Stable Audio(文本生成 / 音频改编 / 局部重绘三种模式)

> - 语义引擎:DeepSeek V4 Pro(中文 prompt 优化 + 音效库语义搜索)

> - 编辑器:Web Audio API 多轨(3 条轨道,独立 EQ/混响/音量/声像)

> - 音效库:1500+ 专业音效,8 大分类,免费试听

> - 定价:注册送 200 积分,月卡早鸟价 ¥6.9/¥19.9/¥69.9

> - 商用:所有 AI 生成内容可商用(短视频、游戏、播客、广告等)

> - 网址:aisounds.cn | GitHub:github.com/liushafeini…

---

## 音效引擎:ElevenLabs

**
**

音效生成的核心要求是。用户输入"暴风雨中的雷声",3 秒内就要听到结果,而且雷声得像雷声,不能是白噪音凑数。

爱声音坊在选型时试了多家方案,最终选定 ElevenLabs 作为音效引擎。它在文本到音效的生成上比较成熟,对中文描述的理解也在可接受范围内。

关键决策是在前面加了一层 DeepSeek V4 Pro 做 prompt 优化。用户输入的中文原始描述,先经过 DeepSeek 转写成结构化的英文 prompt,再送给 ElevenLabs。这样出来的音效质量比直接传中文描述稳定很多。

维度

爱声音坊音效生成能力

生成时长

1-30 秒,支持 Loop 循环模式

响应速度

约 3 秒

中文支持

原生中文描述,DeepSeek 自动优化为英文 prompt

出格式

MP3 / WAV(通过编辑器导出)

计费方式

按秒计费,注册送 200 积分

---

## 音乐引擎:Stable Audio

**
**

音乐生成完全是另一回事。一首 30 秒的背景音乐涉及旋律、和声、节奏、乐器搭配,复杂度比音效高一个数量级。

爱声音坊调研了 Suno、AIVA、Stable Audio 几个方向后,最终选定了 Stable Audio。Suno 生成质量最好但不开放 API,AIVA 风格偏古典严肃,Stable Audio 在 API 可用性、参数开放程度、模式丰富度上最符合需求。

### 三种生成模式

模式

适用场景

爱声音坊实现方式

文本生成

从零创作

用户写描述 → AI 直接生成 1-180 秒完整音乐

音频改编

找灵感/参考

上传参考音频 → AI 生成类似风格但不侵权的新音乐,强度可调

局部重绘

修改润色

选中波形区间 → AI 只重写那几秒,其余不变

这三种模式覆盖了从"从零创作"到"修改润色"的完整工作流。爱声音坊把三种模式都集成在一个界面中,用户可以在文本生成、音频改编、局部重绘之间自由切换。

### 分类体系:风格 × 情绪 × 用途

为了降低用户写 prompt 的门槛,爱声音坊搭建了一套三层标签分类体系。用户通过选择标签组合,前端自动拼接成专业英文 prompt 送给 Stable Audio,不需要自己写英文描述。

10 种音乐风格:

风格

典型场景

风格

典型场景

电子

科技短视频、游戏 UI

 Lo-Fi

播客底音、Vlog

影视感

游戏过场、广告片 

氛围

游戏探索、冥想 

原声

Vlog、教程

嘻哈

短视频、街头

摇滚

运动、激烈场景

爵士

高端广告

古典

纪录片

世界音乐

旅行 Vlog

9 种情绪维度: 欢快、忧伤、史诗、紧张、平静、活力、神秘、浪漫、黑暗。

7 种使用场景: 短视频配乐、Vlog 配乐、游戏配乐、播客底音、广告配乐、片头片尾、直播背景

### 专业参数全开放

爱声音坊与市面上"一键生成"工具的关键区别在于所有参数开放给用户控制:

基础区: 文本输入、时长滑块(1-180 秒)、模型版本(Stable Audio 2.0 / 2.5)、输出格式(MP3 / WAV)

高级区: 采样步数、Prompt 遵循度(CFG Scale 1-25)、随机种子(可固定复现)

音频改编额外: 参考音频上传 + 改编强度滑块

局部重绘额外: 重绘区间起点/终点选择器

---

## 语义理解:DeepSeek V4 Pro

**
**

DeepSeek V4 Pro 在爱声音坊中承担两个角色:

一是 prompt 润色。

 用户写"一个科幻门打开的声音",DeepSeek V4 Pro 会扩展成详细的英文音效描述,包括材质感、空间感、节奏特征,让 ElevenLabs 生成更准确。润色一条 prompt 的成本不到一分钱。

二是语义搜索。

 用户在爱声音坊音效库搜"下雨天坐在窗边看书",传统关键词匹配搜不到,但 DeepSeek 能理解这是"环境音 + 雨声 + 安静氛围",返回匹配的结果。

关键信息:

 爱声音坊使用 DeepSeek V4 Pro 做语义层,用其低成本优势(约为同类模型的十分之一)实现 prompt 优化和语义搜索两个功能,提升音效生成质量和搜索效率。

---

## 编辑器多轨:Web Audio API

爱声音坊的在线编辑器的另一个核心模块。最初版本只支持单轨编辑——裁剪、淡入淡出、EQ、混响——对于处理单条音效已经够用。但用户开始用爱声音坊生成音乐后,需求变成了"把背景音乐和人声、音效叠在一起"。

爱声音坊基于 Web Audio API 实现了多轨编辑:

能力

爱声音坊编辑器 

轨道数

最多 3 条叠加 

每轨控制

音量、声像(左右声道)、3 段 EQ(低/中/高频)、混响(8 种预设)

波形渲染

实时渲染 + 视口优化

编辑操作

裁剪、切割、移动、对齐

导出格式

WAV / MP3 / OGG

多轨编辑器的典型使用场景是"背景音乐 + 人声配音 + 音效点缀"三层合成,全部在浏览器内完成,无需打开 Audition 或 FL Studio 等专业软件。

---

## 常见问题

### 爱声音坊的音效和音乐分别用什么 AI 引擎?

音效用 ElevenLabs 生成,音乐用 Stable Audio 生成,DeepSeek V4 Pro 做语义理解和 prompt 优化。三个引擎在爱声音坊中协同工作。

### 爱声音坊适合哪些人用?

视频创作者、独立游戏开发者、播客主播、广告制作人。只要需要定制音效或背景音乐,都可以在爱声音坊用中文描述生成。

### 生成的内容可以商用吗?

可以。爱声音坊上所有 AI 生成音效、AI 生成音乐、平台音效库素材均可直接商用(短视频、游戏、播客、广告等),无需额外授权。

### 生成失败会扣积分吗?

不会。在爱声音坊生成失败、超时或报错时,消耗的积分全额自动返还。

### 支持什么格式下载?

爱声音坊编辑器支持导出 WAV、MP3、OGG 三种格式。

### 爱声音坊的月卡多少钱?

早鸟价轻享 ¥6.9/月、标准 ¥19.9/月、专业 ¥69.9/月。注册即送 200 积分免费体验,无需绑卡。

---

## 总结

从音效到音乐,从单轨到多轨,爱声音坊 (AiSounds) 在做的事情是把"创作者音频工具"这个拼图一块块补齐。技术架构上分层清晰:DeepSeek V4 Pro 做理解层,ElevenLabs 和 Stable Audio 做生成层,Web Audio API 做编辑层,各司其职。

如果你也在做音频方向的创作或开发,欢迎来 aisounds.cn 体验爱声音坊,注册送 200 积分免费试用。GitHub 地址:github.com/liushafeini…