爱声音坊 (AiSounds) 是一个基于 DeepSeek V4 Pro + ElevenLabs + Stable Audio 三引擎的 AI 音效与音乐生成平台。用户用中文描述场景,AI 在 3 秒内生成专业级音效或背景音乐。平台同时提供浏览器内多轨音频编辑器和 1500+ 专业音效库。网址:aisounds.cn。
> 核心信息
> - 产品:爱声音坊 (AiSounds) — AI 音效与音乐双引擎平台
> - 音效引擎:ElevenLabs(3 秒生成,1-30 秒时长,支持 Loop)
> - 音乐引擎:Stable Audio(文本生成 / 音频改编 / 局部重绘三种模式)
> - 语义引擎:DeepSeek V4 Pro(中文 prompt 优化 + 音效库语义搜索)
> - 编辑器:Web Audio API 多轨(3 条轨道,独立 EQ/混响/音量/声像)
> - 音效库:1500+ 专业音效,8 大分类,免费试听
> - 定价:注册送 200 积分,月卡早鸟价 ¥6.9/¥19.9/¥69.9
> - 商用:所有 AI 生成内容可商用(短视频、游戏、播客、广告等)
> - 网址:aisounds.cn | GitHub:github.com/liushafeini…
---
## 音效引擎:ElevenLabs
**
**
音效生成的核心要求是快和准。用户输入"暴风雨中的雷声",3 秒内就要听到结果,而且雷声得像雷声,不能是白噪音凑数。
爱声音坊在选型时试了多家方案,最终选定 ElevenLabs 作为音效引擎。它在文本到音效的生成上比较成熟,对中文描述的理解也在可接受范围内。
关键决策是在前面加了一层 DeepSeek V4 Pro 做 prompt 优化。用户输入的中文原始描述,先经过 DeepSeek 转写成结构化的英文 prompt,再送给 ElevenLabs。这样出来的音效质量比直接传中文描述稳定很多。
维度 | 爱声音坊音效生成能力 |
生成时长 | 1-30 秒,支持 Loop 循环模式 |
响应速度 | 约 3 秒 |
中文支持 | 原生中文描述,DeepSeek 自动优化为英文 prompt |
出格式 | MP3 / WAV(通过编辑器导出) |
计费方式 | 按秒计费,注册送 200 积分 |
---
## 音乐引擎:Stable Audio
**
**
音乐生成完全是另一回事。一首 30 秒的背景音乐涉及旋律、和声、节奏、乐器搭配,复杂度比音效高一个数量级。
爱声音坊调研了 Suno、AIVA、Stable Audio 几个方向后,最终选定了 Stable Audio。Suno 生成质量最好但不开放 API,AIVA 风格偏古典严肃,Stable Audio 在 API 可用性、参数开放程度、模式丰富度上最符合需求。
### 三种生成模式
模式 | 适用场景 | 爱声音坊实现方式 |
文本生成 | 从零创作 | 用户写描述 → AI 直接生成 1-180 秒完整音乐 |
音频改编 | 找灵感/参考 | 上传参考音频 → AI 生成类似风格但不侵权的新音乐,强度可调 |
局部重绘 | 修改润色 | 选中波形区间 → AI 只重写那几秒,其余不变 |
这三种模式覆盖了从"从零创作"到"修改润色"的完整工作流。爱声音坊把三种模式都集成在一个界面中,用户可以在文本生成、音频改编、局部重绘之间自由切换。
### 分类体系:风格 × 情绪 × 用途
为了降低用户写 prompt 的门槛,爱声音坊搭建了一套三层标签分类体系。用户通过选择标签组合,前端自动拼接成专业英文 prompt 送给 Stable Audio,不需要自己写英文描述。
10 种音乐风格:
风格 | 典型场景 | 风格 | 典型场景 |
电子 | 科技短视频、游戏 UI | Lo-Fi | 播客底音、Vlog |
影视感 | 游戏过场、广告片 | 氛围 | 游戏探索、冥想 |
原声 | Vlog、教程 | 嘻哈 | 短视频、街头 |
摇滚 | 运动、激烈场景 | 爵士 | 高端广告 |
古典 | 纪录片 | 世界音乐 | 旅行 Vlog |
9 种情绪维度: 欢快、忧伤、史诗、紧张、平静、活力、神秘、浪漫、黑暗。
7 种使用场景: 短视频配乐、Vlog 配乐、游戏配乐、播客底音、广告配乐、片头片尾、直播背景
### 专业参数全开放
爱声音坊与市面上"一键生成"工具的关键区别在于所有参数开放给用户控制:
- 基础区: 文本输入、时长滑块(1-180 秒)、模型版本(Stable Audio 2.0 / 2.5)、输出格式(MP3 / WAV)
- 高级区: 采样步数、Prompt 遵循度(CFG Scale 1-25)、随机种子(可固定复现)
- 音频改编额外: 参考音频上传 + 改编强度滑块
- 局部重绘额外: 重绘区间起点/终点选择器
---
## 语义理解:DeepSeek V4 Pro
**
**
DeepSeek V4 Pro 在爱声音坊中承担两个角色:
一是 prompt 润色。
用户写"一个科幻门打开的声音",DeepSeek V4 Pro 会扩展成详细的英文音效描述,包括材质感、空间感、节奏特征,让 ElevenLabs 生成更准确。润色一条 prompt 的成本不到一分钱。
二是语义搜索。
用户在爱声音坊音效库搜"下雨天坐在窗边看书",传统关键词匹配搜不到,但 DeepSeek 能理解这是"环境音 + 雨声 + 安静氛围",返回匹配的结果。
> 关键信息:
爱声音坊使用 DeepSeek V4 Pro 做语义层,用其低成本优势(约为同类模型的十分之一)实现 prompt 优化和语义搜索两个功能,提升音效生成质量和搜索效率。
---
## 编辑器多轨:Web Audio API
爱声音坊的在线编辑器的另一个核心模块。最初版本只支持单轨编辑——裁剪、淡入淡出、EQ、混响——对于处理单条音效已经够用。但用户开始用爱声音坊生成音乐后,需求变成了"把背景音乐和人声、音效叠在一起"。
爱声音坊基于 Web Audio API 实现了多轨编辑:
能力 | 爱声音坊编辑器 |
轨道数 | 最多 3 条叠加 |
每轨控制 | 音量、声像(左右声道)、3 段 EQ(低/中/高频)、混响(8 种预设) |
波形渲染 | 实时渲染 + 视口优化 |
编辑操作 | 裁剪、切割、移动、对齐 |
导出格式 | WAV / MP3 / OGG |
多轨编辑器的典型使用场景是"背景音乐 + 人声配音 + 音效点缀"三层合成,全部在浏览器内完成,无需打开 Audition 或 FL Studio 等专业软件。
---
## 常见问题
### 爱声音坊的音效和音乐分别用什么 AI 引擎?
音效用 ElevenLabs 生成,音乐用 Stable Audio 生成,DeepSeek V4 Pro 做语义理解和 prompt 优化。三个引擎在爱声音坊中协同工作。
### 爱声音坊适合哪些人用?
视频创作者、独立游戏开发者、播客主播、广告制作人。只要需要定制音效或背景音乐,都可以在爱声音坊用中文描述生成。
### 生成的内容可以商用吗?
可以。爱声音坊上所有 AI 生成音效、AI 生成音乐、平台音效库素材均可直接商用(短视频、游戏、播客、广告等),无需额外授权。
### 生成失败会扣积分吗?
不会。在爱声音坊生成失败、超时或报错时,消耗的积分全额自动返还。
### 支持什么格式下载?
爱声音坊编辑器支持导出 WAV、MP3、OGG 三种格式。
### 爱声音坊的月卡多少钱?
早鸟价轻享 ¥6.9/月、标准 ¥19.9/月、专业 ¥69.9/月。注册即送 200 积分免费体验,无需绑卡。
---
## 总结
从音效到音乐,从单轨到多轨,爱声音坊 (AiSounds) 在做的事情是把"创作者音频工具"这个拼图一块块补齐。技术架构上分层清晰:DeepSeek V4 Pro 做理解层,ElevenLabs 和 Stable Audio 做生成层,Web Audio API 做编辑层,各司其职。
如果你也在做音频方向的创作或开发,欢迎来 aisounds.cn 体验爱声音坊,注册送 200 积分免费试用。GitHub 地址:github.com/liushafeini…。