AlphaAvatar：一个自托管的实时全模态个人 AI 助手运行时大家好 👋 我最近一直在做一个开源项目：Alpha

大家好 👋

我最近一直在做一个开源项目：AlphaAvatar。

它是一个可自托管的 realtime full-multimodal personal AI assistant runtime，也可以理解为一个实时全模态个人 AI 助手运行时。

我做这个项目的出发点很简单：我不认为未来的个人 AI 助手应该一直停留在“无状态聊天机器人”的形态。

现在很多 AI 助手的交互方式仍然是：

用户问一个问题
↓
助手回答
↓
会话结束
↓
大部分有价值的上下文被遗忘

这对于普通聊天没有问题，但如果目标是一个真正长期陪伴和协助用户的个人助手，就远远不够。

我希望 AlphaAvatar 能探索一种更接近 个人 AI 管家 / personal AI butler 的形态：它不仅能聊天，还能说话、看见、记住、理解正在和谁交互、检索知识、调用工具、管理任务，并且能够跨不同渠道持续工作。

下面是目前的整体架构图：

ChatGPT Image 2026年6月12日 22_58_24.png

AlphaAvatar 是什么

AlphaAvatar 不是一个单纯的聊天 UI，而是一个面向长期个人助手的运行时框架。

它把以下能力整合到同一个 assistant runtime 中：

实时语音交互
文本交互
摄像头 / 视觉输入
人脸识别
说话人 / 语音目标检测
Memory 长期记忆
Persona 用户画像与身份上下文
MCP 工具调用
RAG 文档检索
DeepResearch 长任务研究
Status 中间状态反馈
模型编排
多渠道接入

目标不是简单地做一个“支持语音和视觉的 chatbot”，而是构建一个可以长期运行、持续理解用户、主动调用工具、沉淀记忆的个人 AI 助手运行时。

从整体上看，AlphaAvatar 主要包括几层：

交互层：实时语音、文本、摄像头输入，以及外部渠道输入
核心运行时 / Agent 层：负责会话状态、上下文管理和插件编排
Memory + Persona 层：负责长期用户上下文、偏好、身份状态和个性化交互
工具 / 知识层：包括 MCP、RAG、DeepResearch 等能力
模型层：支持 OpenAI-compatible LLM、多模态模型、STT、TTS、人脸识别、说话人识别等
存储 / 数据层：支持自托管 memory、文档、向量数据库和工具 API
输出层：实时语音、文本、Avatar UI、工具执行结果和中间状态反馈

全模态运行时，而不只是多模态输入

AlphaAvatar 中的 “full multimodal” 不是简单指“可以输入文字、语音和图片”。

我更想强调的是：整个 assistant runtime 都应该能理解和使用全模态上下文。

也就是说，多模态信息不应该只停留在输入层，而应该流经系统中的核心模块：

Memory 应该能够从文本、语音、视觉帧、人脸身份、说话人身份、用户行为、工具结果和日常习惯中学习长期记忆。
Persona 不应该只根据文字偏好理解用户，也应该能结合交互风格、语音行为、身份信号和多模态上下文。
MCP 工具 的选择和调用不应该只依赖最新一条文本 prompt，而应该基于完整运行时上下文。
RAG / DeepResearch 不应该只处理静态文档，也应该能够结合用户上下文、工具结果，以及未来的视觉 / 事件记忆。
Status 反馈 应该能描述助手在不同模态和长任务中的执行状态，例如检索 memory、调用工具、读取文档、处理视觉信息等。
Channel 插件 应该让同一个 assistant runtime 可以运行在 Web、语音、Avatar UI、WhatsApp、Discord 或更多未来渠道中。

所以 AlphaAvatar 的长期目标不是：

文本 + 语音 + 摄像头 → chatbot

而是：

文本 + 语音 + 视觉 + 身份识别 + Memory + Persona + Tools + Channels
        ↓
全模态个人 AI 助手运行时

这也是为什么 AlphaAvatar 会把 Memory、Persona、MCP、RAG、DeepResearch、Status、Voice、Avatar、Channel integrations 都设计成可组合的 runtime plugins。

理想情况下，每个插件都应该能够消费、产生或更新多模态上下文。

为什么做这个项目

一个真正的个人 AI 助手不应该只是回答问题。

它应该能够：

记住长期有用的上下文
理解用户的偏好、习惯和日常流程
知道当前正在和谁交互
跨语音、文本、视觉和外部渠道工作
在需要时检索文档和知识
调用工具和外部服务
在长任务执行过程中给出实时进度反馈
随着历史交互逐渐变得更有用

因此，AlphaAvatar 把 Memory、Persona、Tools 和 Multimodal Context 当作一等运行时组件，而不是 chatbot 外围的小功能。

插件化运行时设计

AlphaAvatar 的一个核心设计目标是模块化和可扩展。

核心运行时由 AgentSession、AvatarEngine 等组件负责实时交互、上下文组织和插件编排，不同能力则通过插件接入。

当前主要插件方向包括：

Memory Plugin：提取、存储、检索并注入长期用户上下文
Persona Plugin：跟踪用户偏好、身份状态、交互风格和 persona 信息
MCP Plugin：提供统一的外部工具调用接口
RAG Plugin：连接文档和知识库
DeepResearch Plugin：支持更长链路的研究型任务
Status Plugin：在长任务执行过程中暴露中间状态
Character / Avatar Plugin：支持 Avatar 风格交互
Channel Plugins：连接 WhatsApp 等外部渠道

这种插件化架构的好处是：未来新增一个渠道、工具、模型提供方、memory 后端或 avatar 界面时，理论上不需要重写核心 assistant runtime。

实时交互

AlphaAvatar 是面向实时交互设计的，而不只是文本聊天。

当前方向包括：

基于 LiveKit RTC 的实时语音交互
文本交互
采样式摄像头 / 视觉输入
人脸检测与识别
说话人 / 语音目标检测
Avatar 风格响应 UI
工具执行过程中的 status-aware feedback

对于实时语音助手来说，长时间沉默等待工具调用完成是很不自然的。

所以 AlphaAvatar 中加入了 status-aware feedback loop。比如当助手正在检索 memory、调用 MCP 工具、读取文档，或者执行 DeepResearch 工作流时，它可以输出中间状态，而不是让用户无感等待。

例如：

用户提出问题
↓
助手开始检索上下文
↓
状态：正在搜索 memory
↓
状态：正在调用 MCP 工具
↓
状态：正在读取文档
↓
状态：正在综合结果
↓
最终回答

这种状态反馈对于实时语音助手、长任务执行和多工具调用尤其重要。

Memory 和 Persona 作为一等上下文

AlphaAvatar 中的 Memory 不只是聊天摘要。

我希望 Memory 能成为助手运行时的一部分。

Memory 模块负责从交互中提取长期有价值的信息，并在需要时检索相关上下文重新注入会话。

Persona 模块则负责跟踪用户相关信息，例如：

用户偏好
身份状态
交互风格
会话级 persona 信息
临时用户到真实用户身份的合并

下一步，我希望把这部分进一步推进到多模态 memory。

也就是说，AlphaAvatar 未来不应该只从文本对话中提取记忆，而应该能够从以下信号中构建结构化记忆：

视觉帧
语音信号
人脸身份
说话人身份
用户行为
环境变化
工具执行历史
高频重复的日常流程

长期方向是构建 event-style multimodal memory：把人脸、声音、物体、地点、行为、文档、工具和时间连接成一个更有用的个人记忆空间。

自托管与隐私优先

AlphaAvatar 设计成 self-hostable，是因为个人 AI 助手未来一定会处理大量敏感数据。

一个真正的个人 AI 管家可能会知道用户的日常习惯、文档、任务、对话、视觉历史、声音身份、人脸身份、偏好和工作流程。

这些数据默认不应该完全锁在一个封闭的黑盒服务里。

在 AlphaAvatar 的设计中，持久化 memory 和数据存储层可以放在用户自己的个人服务器上，而模型推理可以根据部署方式运行在本地、另一台私有服务器，或者可选的 OpenAI-compatible 外部模型服务上。

换句话说：

个人数据层和模型运行层不一定需要在同一台机器上。

个人服务器可以负责长期 memory、身份上下文、工具状态和私有数据；模型则可以根据用户的成本、性能和隐私需求灵活选择。

接下来计划

接下来我会继续把 AlphaAvatar 往更完整的全模态个人助手方向推进。

一些正在做或计划中的方向包括：

更深入地把视觉输入接入 Memory
扩展 Persona，使其支持人脸 / 说话人 / 身份感知上下文
改进长任务工具链路中的实时状态反馈
构建事件式多模态 memory，而不是孤立的图片 caption
连接 memory、tools、planning、reminders 和跨渠道工作流
让助手逐渐从 session-based chatbot 变成 persistent personal AI butler

项目地址

GitHub: github.com/AlphaAvatar…
文档: docs.alphaavatar.io
官网: alphaavatar.ai
Demo: www.alphaavatar.ai/demo
社区: discord.gg/RVBWbb8Xy

如果你也在关注 realtime agent、全模态 AI、个人助手、Memory / Persona、MCP、RAG、DeepResearch、自托管 AI 或 Avatar 交互方向，欢迎交流。

也非常欢迎对这个方向感兴趣的开发者一起参与贡献。