AlphaAvatar:一个自托管的实时全模态个人 AI 助手运行时

0 阅读8分钟

大家好 👋

我最近一直在做一个开源项目:AlphaAvatar

它是一个可自托管的 realtime full-multimodal personal AI assistant runtime,也可以理解为一个实时全模态个人 AI 助手运行时。

我做这个项目的出发点很简单:我不认为未来的个人 AI 助手应该一直停留在“无状态聊天机器人”的形态。

现在很多 AI 助手的交互方式仍然是:

用户问一个问题
↓
助手回答
↓
会话结束
↓
大部分有价值的上下文被遗忘

这对于普通聊天没有问题,但如果目标是一个真正长期陪伴和协助用户的个人助手,就远远不够。

我希望 AlphaAvatar 能探索一种更接近 个人 AI 管家 / personal AI butler 的形态:它不仅能聊天,还能说话、看见、记住、理解正在和谁交互、检索知识、调用工具、管理任务,并且能够跨不同渠道持续工作。

下面是目前的整体架构图:

ChatGPT Image 2026年6月12日 22_58_24.png

AlphaAvatar 是什么

AlphaAvatar 不是一个单纯的聊天 UI,而是一个面向长期个人助手的运行时框架。

它把以下能力整合到同一个 assistant runtime 中:

  • 实时语音交互
  • 文本交互
  • 摄像头 / 视觉输入
  • 人脸识别
  • 说话人 / 语音目标检测
  • Memory 长期记忆
  • Persona 用户画像与身份上下文
  • MCP 工具调用
  • RAG 文档检索
  • DeepResearch 长任务研究
  • Status 中间状态反馈
  • 模型编排
  • 多渠道接入

目标不是简单地做一个“支持语音和视觉的 chatbot”,而是构建一个可以长期运行、持续理解用户、主动调用工具、沉淀记忆的个人 AI 助手运行时。

从整体上看,AlphaAvatar 主要包括几层:

  • 交互层:实时语音、文本、摄像头输入,以及外部渠道输入
  • 核心运行时 / Agent 层:负责会话状态、上下文管理和插件编排
  • Memory + Persona 层:负责长期用户上下文、偏好、身份状态和个性化交互
  • 工具 / 知识层:包括 MCP、RAG、DeepResearch 等能力
  • 模型层:支持 OpenAI-compatible LLM、多模态模型、STT、TTS、人脸识别、说话人识别等
  • 存储 / 数据层:支持自托管 memory、文档、向量数据库和工具 API
  • 输出层:实时语音、文本、Avatar UI、工具执行结果和中间状态反馈

全模态运行时,而不只是多模态输入

AlphaAvatar 中的 “full multimodal” 不是简单指“可以输入文字、语音和图片”。

我更想强调的是:整个 assistant runtime 都应该能理解和使用全模态上下文

也就是说,多模态信息不应该只停留在输入层,而应该流经系统中的核心模块:

  • Memory 应该能够从文本、语音、视觉帧、人脸身份、说话人身份、用户行为、工具结果和日常习惯中学习长期记忆。
  • Persona 不应该只根据文字偏好理解用户,也应该能结合交互风格、语音行为、身份信号和多模态上下文。
  • MCP 工具 的选择和调用不应该只依赖最新一条文本 prompt,而应该基于完整运行时上下文。
  • RAG / DeepResearch 不应该只处理静态文档,也应该能够结合用户上下文、工具结果,以及未来的视觉 / 事件记忆。
  • Status 反馈 应该能描述助手在不同模态和长任务中的执行状态,例如检索 memory、调用工具、读取文档、处理视觉信息等。
  • Channel 插件 应该让同一个 assistant runtime 可以运行在 Web、语音、Avatar UI、WhatsApp、Discord 或更多未来渠道中。

所以 AlphaAvatar 的长期目标不是:

文本 + 语音 + 摄像头 → chatbot

而是:

文本 + 语音 + 视觉 + 身份识别 + Memory + Persona + Tools + Channels
        ↓
全模态个人 AI 助手运行时

这也是为什么 AlphaAvatar 会把 Memory、Persona、MCP、RAG、DeepResearch、Status、Voice、Avatar、Channel integrations 都设计成可组合的 runtime plugins。

理想情况下,每个插件都应该能够消费、产生或更新多模态上下文。

为什么做这个项目

一个真正的个人 AI 助手不应该只是回答问题。

它应该能够:

  • 记住长期有用的上下文
  • 理解用户的偏好、习惯和日常流程
  • 知道当前正在和谁交互
  • 跨语音、文本、视觉和外部渠道工作
  • 在需要时检索文档和知识
  • 调用工具和外部服务
  • 在长任务执行过程中给出实时进度反馈
  • 随着历史交互逐渐变得更有用

因此,AlphaAvatar 把 Memory、Persona、Tools 和 Multimodal Context 当作一等运行时组件,而不是 chatbot 外围的小功能。

插件化运行时设计

AlphaAvatar 的一个核心设计目标是模块化和可扩展。

核心运行时由 AgentSessionAvatarEngine 等组件负责实时交互、上下文组织和插件编排,不同能力则通过插件接入。

当前主要插件方向包括:

  • Memory Plugin:提取、存储、检索并注入长期用户上下文
  • Persona Plugin:跟踪用户偏好、身份状态、交互风格和 persona 信息
  • MCP Plugin:提供统一的外部工具调用接口
  • RAG Plugin:连接文档和知识库
  • DeepResearch Plugin:支持更长链路的研究型任务
  • Status Plugin:在长任务执行过程中暴露中间状态
  • Character / Avatar Plugin:支持 Avatar 风格交互
  • Channel Plugins:连接 WhatsApp 等外部渠道

这种插件化架构的好处是:未来新增一个渠道、工具、模型提供方、memory 后端或 avatar 界面时,理论上不需要重写核心 assistant runtime。

实时交互

AlphaAvatar 是面向实时交互设计的,而不只是文本聊天。

当前方向包括:

  • 基于 LiveKit RTC 的实时语音交互
  • 文本交互
  • 采样式摄像头 / 视觉输入
  • 人脸检测与识别
  • 说话人 / 语音目标检测
  • Avatar 风格响应 UI
  • 工具执行过程中的 status-aware feedback

对于实时语音助手来说,长时间沉默等待工具调用完成是很不自然的。

所以 AlphaAvatar 中加入了 status-aware feedback loop。比如当助手正在检索 memory、调用 MCP 工具、读取文档,或者执行 DeepResearch 工作流时,它可以输出中间状态,而不是让用户无感等待。

例如:

用户提出问题
↓
助手开始检索上下文
↓
状态:正在搜索 memory
↓
状态:正在调用 MCP 工具
↓
状态:正在读取文档
↓
状态:正在综合结果
↓
最终回答

这种状态反馈对于实时语音助手、长任务执行和多工具调用尤其重要。

Memory 和 Persona 作为一等上下文

AlphaAvatar 中的 Memory 不只是聊天摘要。

我希望 Memory 能成为助手运行时的一部分。

Memory 模块负责从交互中提取长期有价值的信息,并在需要时检索相关上下文重新注入会话。

Persona 模块则负责跟踪用户相关信息,例如:

  • 用户偏好
  • 身份状态
  • 交互风格
  • 会话级 persona 信息
  • 临时用户到真实用户身份的合并

下一步,我希望把这部分进一步推进到多模态 memory。

也就是说,AlphaAvatar 未来不应该只从文本对话中提取记忆,而应该能够从以下信号中构建结构化记忆:

  • 视觉帧
  • 语音信号
  • 人脸身份
  • 说话人身份
  • 用户行为
  • 环境变化
  • 工具执行历史
  • 高频重复的日常流程

长期方向是构建 event-style multimodal memory:把人脸、声音、物体、地点、行为、文档、工具和时间连接成一个更有用的个人记忆空间。

自托管与隐私优先

AlphaAvatar 设计成 self-hostable,是因为个人 AI 助手未来一定会处理大量敏感数据。

一个真正的个人 AI 管家可能会知道用户的日常习惯、文档、任务、对话、视觉历史、声音身份、人脸身份、偏好和工作流程。

这些数据默认不应该完全锁在一个封闭的黑盒服务里。

在 AlphaAvatar 的设计中,持久化 memory 和数据存储层可以放在用户自己的个人服务器上,而模型推理可以根据部署方式运行在本地、另一台私有服务器,或者可选的 OpenAI-compatible 外部模型服务上。

换句话说:

个人数据层和模型运行层不一定需要在同一台机器上。

个人服务器可以负责长期 memory、身份上下文、工具状态和私有数据;模型则可以根据用户的成本、性能和隐私需求灵活选择。

接下来计划

接下来我会继续把 AlphaAvatar 往更完整的全模态个人助手方向推进。

一些正在做或计划中的方向包括:

  • 更深入地把视觉输入接入 Memory
  • 扩展 Persona,使其支持人脸 / 说话人 / 身份感知上下文
  • 改进长任务工具链路中的实时状态反馈
  • 构建事件式多模态 memory,而不是孤立的图片 caption
  • 连接 memory、tools、planning、reminders 和跨渠道工作流
  • 让助手逐渐从 session-based chatbot 变成 persistent personal AI butler

项目地址

GitHub: github.com/AlphaAvatar…
文档: docs.alphaavatar.io
官网: alphaavatar.ai
Demo: www.alphaavatar.ai/demo
社区: discord.gg/RVBWbb8Xy

如果你也在关注 realtime agent、全模态 AI、个人助手、Memory / Persona、MCP、RAG、DeepResearch、自托管 AI 或 Avatar 交互方向,欢迎交流。

也非常欢迎对这个方向感兴趣的开发者一起参与贡献。