EchoKit x OceanBase seekdb：开源的本地化语音 AI 框架EchoKit是由WasmEdge开源

摘要：

EchoKit是由WasmEdge开源的语音AI框架。在知识库层，EchoKit选用OceanBase seekdb，一款AI原生混合搜索数据库。其单引擎统一关系数据、向量、全文与JSON，支持混合搜索与内置embedding。seekdb的低延迟、多模态检索能力及MCP工具调用机制，使语音助手能快速精准地从本地文档中召回信息，应用于金融监控、技术检索与个人知识管理等场景。

背景

EchoKit 是由 WasmEdge 团队最新开源的一个语音 AI 框架项目。项目的核心理念很明确，就是要提供一套完全开源、可以在本地部署的语音 AI 解决方案。这样一来，开发者就可以构建出既保护隐私、又高度可定制的智能语音助手。不同于市面上那些必须依赖云端服务的产品，EchoKit 给了开发者完全的控制权。

在知识库和数据检索这一层，EchoKit 选择了 OceanBase seekdb。

OceanBase 是一家在数据库领域深耕多年的公司，其分布式数据库在双十一等极端场景下经过了充分的验证。seekdb 是OceanBase 在 2025 年 11 月发布的一款 AI 原生混合搜索数据库，以 Apache 2.0 协议开源。

seekdb 的定位很明确，他不是传统意义上的数据库，而是一个为 AI 时代重新设计的数据库。他在单个引擎中统一了关系型数据、向量数据、全文本、JSON，支持混合搜索和数据库内的 AI 工作流。这种设计理念与 EchoKit 的需求高度契合。传统的做法是使用多个独立的系统来处理不同类型的数据，比如用 PostgreSQL 存储结构化数据，用 Elasticsearch 做全文搜索，用专门的向量数据库做语义搜索。这样的架构复杂度高，数据同步是个问题，查询性能也会受影响。OceanBase seekdb 把这些能力整合到一个引擎里，大大简化了系统架构。

当前语音 AI 服务面临的问题

现在市面上的语音 AI 服务确实在对话流畅度和响应速度上做得很不错，但是仍然存在一些根本性的问题。

最明显的一个问题就是隐私。当你使用这些云端服务的时候，你的语音数据、对话内容、个人信息都必须上传到服务提供商的服务器上进行处理。如果你想让语音助手帮你管理家里的智能设备、查询个人财务信息、访问公司内部数据，这些场景下的隐私和安全问题就变得非常突出。

第二个问题是供应商锁定。大多数语音 AI 解决方案都依赖特定的云服务提供商或者 API。不同的服务提供商在性能、成本、支持的语言上都有差异，被锁定在一家就意味着失去了选择的灵活性。

第三个问题是可控性和定制化程度。使用云端服务的时候，你基本上只能用他们提供的模型和功能。你没法深度定制模型的行为，没法调整处理流程，也没法集成自己的知识库。

EchoKit 的出现就是为了解决这些问题。通过提供完整的开源固件和服务器框架，开发者可以选择在本地部署，比如直接跑在自己的 Mac 电脑上，或者部署在边缘设备上。也可以采用混合部署的方式，把一部分功能放在本地，另一部分放在云端。更重要的是，你可以完全自主选择使用哪家的云服务，不会被任何一个特定的 API 所限制。

技术架构详解

EchoKit 的技术架构设计得比较清晰，整个处理流程可以分为几个关键步骤。

首先是语音输入和检测阶段。用户通过刷好了 EchoKit 固件的 ESP32 语音设备进行语音输入。这个阶段有一个很重要的技术叫VAD，也就是 Voice Activity Detection，语音活动检测。它的作用是判断用户什么时候开始说话、什么时候说完了，从而准确地检测出语句的边界。

第二步是语音识别，也就是 ASR（Automatic Speech Recognition）。EchoKit 默认使用的是 Whisper，这是 OpenAI 开源的一个语音识别模型，效果很不错。你也完全可以替换成其他的开源 ASR 模型，这种灵活性是云端服务很难提供的。

第三步是语言模型处理，也就是 LLM 阶段。这一步是整个流程的大脑，负责理解用户的意图，并决定如何响应。在这个阶段，系统会自主决策是否需要调用外部工具。如果用户的问题涉及到知识库中的信息，系统会调用 seekdb 进行数据库查询。EchoKit 还支持 MCP（Model Context Protocol）工具调用，可以让 AI 助手调用各种外部工具和服务。

最后一步是语音合成，也就是 TTS（Text-to-Speech）。系统把生成的文本转换成语音输出给用户。这里同样支持多种 TTS 引擎，你可以选择低延迟的开源 TTS 模型。更有意思的是，EchoKit 还支持语音克隆功能，这个后面会详细讲到。

架构的设计理念就是模块化和可替换，每一个环节都可以根据你的需求进行调整和优化。

截屏2026-02-26 22.39.08.png

OceanBase seekdb 在其中扮演的角色

在 EchoKit 的架构中，OceanBase seekdb 被选作知识库解决方案，这个选择是有充分理由的。

首先是延迟问题。 对于语音交互来说，响应速度是用户体验的关键。如果你问一个问题，系统要等好几秒才能回答，这个体验就很糟糕。seekdb 的查询响应速度非常快，这对于实时语音交互来说至关重要。当用户提出一个需要查询知识库的问题时，系统可以快速从 seekdb 中检索到相关信息，然后生成回答，整个过程不会有明显的延迟。

其次是搜索能力的多样性。 seekdb 支持多种搜索模式，包括关键词搜索、精确搜索、语义搜索，以及这些模式的混合搜索。这种能力在实际应用中非常有用。比如用户问“最近 AI 领域有哪些技术突破”，这个问题就需要多种搜索能力的配合。系统需要理解“技术突破”的语义含义，这是语义搜索；需要精确匹配“AI”这个关键词，这是关键词搜索；还需要按照“最近”这个时间范围进行过滤，这是元数据的精确过滤。seekdb 可以把这些搜索方式结合起来，返回最相关、最准确的结果。

第三个优势是内置的 Embedding 功能。 seekdb 具有内置的 embedding 功能，这意味着你不需要单独部署一个 embedding 服务，整个向量化处理流程都被简化了。这对于降低系统复杂度、减少部署难度来说是很有帮助的。

最后是语义混搜排序能力。 seekdb 可以同时进行语义匹配、关键词匹配和元数据精确过滤，然后对结果进行综合排序。这种能力特别适合复杂的知识检索场景。在实际应用中，用户的问题往往不是单一维度的，需要系统能够理解问题的多个方面，然后从知识库中找出最匹配的信息。

seekdb 还可以作为 MCP Server 被调用。这意味着它不仅仅是一个被动的数据库，而是可以作为一个工具被 AI 助手主动调用。这种设计让整个系统的架构更加灵活。

截屏2026-02-26 22.39.25.png

实际应用场景

为了更好地理解 EchoKit 和 OceanBase seekdb 的结合能带来什么，我们可以看几个具体的应用场景。

第一个是金融场景下的营收监控。假设你是一个公司的管理者，你想通过语音快速了解公司的财务状况。你可以直接对着语音助手说：“看一下我们 Q4 这个季度的营收，如果低于目标就给我一个警示。”

系统的处理流程是这样的：首先，你的语音输入被 ASR 转换成文字。然后，LLM 理解了你的意图，知道你要查询 Q4 的营收数据，并且需要跟目标进行对比。接着，系统决定调用营收 API 来获取实际的营收数据。同时，系统会从 seekdb 中查询 Q4 的营收目标是多少。拿到这两个数据之后，系统进行对比，发现实际营收低于目标。最后，系统通过 TTS 生成语音反馈：“营收低于12% 的目标。”

这个场景的关键在于，所有的数据都可以保存在本地。你的财务数据不需要上传到任何云端服务，整个查询和分析过程都在你自己的设备上完成。这对于企业来说，隐私和安全性得到了充分保障。

第二个场景是技术信息检索。假设你是一个开发者，想了解最近的技术动态。你问语音助手：“最近 AI 领域有哪些技术突破？”

这时候，seekdb 的混合搜索能力就派上用场了。系统会同时进行语义匹配，理解“技术突破”这个概念的含义；进行关键词匹配，精确找到包含“AI”、“突破”等关键词的内容；还会进行元数据过滤，只返回“最近”这个时间范围内的信息。这三种搜索方式结合起来，可以确保返回的结果既相关又准确。

第三个场景是个人知识管理。很多人都有自己的笔记、文档、收藏的文章等等。你可以把这些内容导入到 seekdb 中，然后通过语音来查询。比如你想不起来之前看过的某篇文章里的一个观点，你可以用自然语言描述一下，系统就能帮你找出来。而且因为是本地部署，你不用担心自己的笔记内容被上传到云端。

部署和使用

EchoKit 的部署过程相对来说比较简单。首先你需要从 GitHub 上克隆项目代码 github.com/second-stat…

在配置文件中，你需要设置 ASR、LLM、TTS 的 API 配置。这里的灵活性很大，你可以选择使用本地模型，也可以使用云端的API。比如 ASR 你可以用本地的 Whisper，也可以用云端的语音识别服务；LLM 你可以用本地部署的开源模型，也可以用OpenAI 的 API；TTS 同样可以本地或云端。

系统提供了两种工作模式。第一种是三段式模式，也就是 ASR → LLM → TTS 这样分开处理。这种模式的优势是灵活性最高，每个环节都可以独立选择模型，而且可以在 LLM 阶段加载知识库、调用工具。这种模式推荐用于需要高度定制的场景。

第二种是端到端模式，直接使用像 ChatGPT Live API 或千问语音 API 这样的服务。这种模式的优势是速度更快，因为是一次调用完成全流程，中间没有额外的转换开销。但相应的，定制化程度就比较低了。你可以根据自己的需求来选择使用哪种模式。

如果你要集成知识库，需要配置 seekdb 数据库。你可以把自己的文档、CSV 文件等数据导入进去。seekdb 会自动处理embedding 和索引，之后就可以通过语音来查询这些知识了。

由于 EchoKit 是用 Rust 编写的，整体的体积很小，性能也很高。这意味着即使在配置不是

特别高的设备上，也可以流畅运行。部署完成后，系统可以快速启动，响应速度也很快。

EchoKit server 部署好以后可以在web端和它对话 echokit.dev/chat/，测试是否成…

接下来就可以刷固件到你的硬件（可以自己组装esp32或者购买我们已经刷好固件的设备echokit.dev/）上，并且在 setu… url，和你的语音盒子开始对话啦。如果想克隆自己的音色，也可以使用我们的声音克隆工具噢！