【Cursor实战】Cursor+Elevenlabs MCP文本朗读及音效生成

401 阅读6分钟

前言

可能AI用久了人也变懒了,面对长篇大论的文章往往无法提起精神阅读,使用macOS的朗读功能听起来如同嚼蜡毫无感情可言,那有没有好用的文本转语音工具呢,最近还真找到一个而且提供了MCP服务,今天特此体验下效果。

对以往实战案例感兴趣的小伙伴也可以看往期:

Cursor版本

当前Cursor版本:0.48.9

限制

访问官网需要科学上网

优势

免费计划用户每月有 10000 tokens 免费额度

关于Elevenlabs

Elevenlabs简介

Elevenlabs是一家专注于AI语音技术的公司,他们的产品能生成自然、富有情感的合成语音,广泛应用于有声读物制作、影视配音、游戏开发以及个性化语音助手等领域。

Elevenlabs官网

官网地址:elevenlabs.io/

图片

Elevenlabs注册登录

选择自己喜欢的方式注册登录

图片

登录成功后即可进入Elevenlabs管理后台

图片

申请API Key

官网地址:elevenlabs.io/app/setting…

点击链接或者在【Elevenlabs】->【用户信息】->【API Keys】进入API Keys申请页面

图片

点击【Create API Key】创建一个新的API Key,输入API Key名称,点击【Create】创建,需要对API进行详细限制的小伙伴可以打开【Restrict Key】

图片

创建完成后保存API Key备用,注意保管API Key,后续将不可查看

图片

产品定价

图片

免费计划用户每月有 10000 tokens 免费额度

在Cursor中配置MCP

GitHub地址:github.com/elevenlabs/…

图片

准备工作完成后,进入Cursor设置页面找到 MCP,点击【Add new global MCP Server】,打开mcp.json文件配置MCP

图片

图片

{
  "mcpServers": {
    "ElevenLabs": {
      "command": "uvx",
      "args": ["elevenlabs-mcp"],
      "env": {
        "ELEVENLABS_API_KEY": "<insert-your-api-key-here>"
      }
    }
  }
}

等待MCP状态变为绿色即为启动成功

图片

可以看到Elevenlabs MCP支持的 tools 还是比较多,包括大家比较常见的文本转音频(TTS)、音频转文本(STT)、音效生成、音色克隆等

使用案例

有声朗读

💡Elevenlabs MCP默认会将生成的音频文件存储到用户桌面

有声朗读的过程其实就是将文本转为音频,对于传统方式使用ffmpeg就可以完成,使用ffmpeg有个问题就是朗读效果并不好,纯属无感情的朗读。

// 使用MacOS自带的say指令将文本转为aiff
$ say -f elevenlans/a2a.md -o a2a_audio.aiff
// 使用ffmpeg将aiff转为音频文件
$ ffmpeg -i a2a_audio.aiff a2a_audio.mp3

现在除了使用ffmpeg还可以使用Elevenlabs进行文本朗读,首先准备一段文本并输入提示词

图片

使用英文朗读@a2a.md 并将音频保存到本地

图片

可以看到在未明确指定路径时,Elevenlabs MCP默认会将音频文件存储到桌面

图片

指定路径后,Elevenlabs MCP还是会将音频文件存储到桌面,随后Cursor使用shell指令将音频文件挪动到了elevenlans目录下。试听了下效果不错,有停顿有感情。接下来试试Elevenlabs朗读中文的效果,同样准备一段中文并输入提示词。

图片

使用中文朗读@chinese.md 并将音频保存到@elevenlans目录下

生成完后,我们同样会得到一个中文的音频文件,只不过这个效果听着着实有点令人尴尬,就是一个老外用流利的中文讲着蹩脚的汉语😂。

图片

生成音效

Elevenlabs MCP除了可以用来根据文本转语音还可以用来生成特效、克隆声音,这里试一下生成音效的效果。

这是一个俄罗斯方块游戏的工作目录@tetris-elevenlabs ,使用Elevenlabs MCP为游戏添加俄罗斯方块下落、方向变换和消除等相关音效
- 只添加音效,不要改动游戏原始功能
- 生成的音效文件放到当前工作目录下

图片

稍等片刻后,可以看到Cursor生成了对应的音效文件

图片

双击【index.html】在浏览器中查看效果,游戏效果和之前还保存一致,但是这个音效嘛,感觉一般般,有点类似抽卡一样,有的还可以,有的就偏差的比较多了。

图片

总结

可以使用Cursor + Elevenlabs MCP实现文本转语言、语音转文本、生成音效等功能,目前Elevenlabs在英文方面支持的还不错,对中文方面支持的并不是很好暂时不建议使用。对于音效的生成Elevenlabs有点像抽卡,有时可以生成不错的音效,有时生成的完全没法用,有需求的小伙伴建议选择性使用。

项目地址

项目放到Github了,感兴趣的小伙伴可以自行玩耍

Github地址:github.com/MisterZhouZ…

常见问题

MCP配置失败

有时会遇到MCP服务配置失败的情况,这种情况多半是由于uvx拉取依赖库失败导致

图片

直接在命令行终端执行对应命令

图片

终端命令启动完成后,重启Cursor

友情提示

见原文:【Cursor实战】Cursor+Elevenlabs MCP文本朗读及音效生成

本文同步自微信公众号 "程序员小溪" ,这里只是同步,想看及时消息请移步我的公众号,不定时更新我的学习经验。