大家好 👋
我最近一直在做一个开源项目:AlphaAvatar。
它是一个可自托管的 realtime full-multimodal personal AI assistant runtime,也可以理解为一个实时全模态个人 AI 助手运行时。
我做这个项目的出发点很简单:我不认为未来的个人 AI 助手应该一直停留在“无状态聊天机器人”的形态。
现在很多 AI 助手的交互方式仍然是:
用户问一个问题
↓
助手回答
↓
会话结束
↓
大部分有价值的上下文被遗忘
这对于普通聊天没有问题,但如果目标是一个真正长期陪伴和协助用户的个人助手,就远远不够。
我希望 AlphaAvatar 能探索一种更接近 个人 AI 管家 / personal AI butler 的形态:它不仅能聊天,还能说话、看见、记住、理解正在和谁交互、检索知识、调用工具、管理任务,并且能够跨不同渠道持续工作。
下面是目前的整体架构图:
AlphaAvatar 是什么
AlphaAvatar 不是一个单纯的聊天 UI,而是一个面向长期个人助手的运行时框架。
它把以下能力整合到同一个 assistant runtime 中:
- 实时语音交互
- 文本交互
- 摄像头 / 视觉输入
- 人脸识别
- 说话人 / 语音目标检测
- Memory 长期记忆
- Persona 用户画像与身份上下文
- MCP 工具调用
- RAG 文档检索
- DeepResearch 长任务研究
- Status 中间状态反馈
- 模型编排
- 多渠道接入
目标不是简单地做一个“支持语音和视觉的 chatbot”,而是构建一个可以长期运行、持续理解用户、主动调用工具、沉淀记忆的个人 AI 助手运行时。
从整体上看,AlphaAvatar 主要包括几层:
- 交互层:实时语音、文本、摄像头输入,以及外部渠道输入
- 核心运行时 / Agent 层:负责会话状态、上下文管理和插件编排
- Memory + Persona 层:负责长期用户上下文、偏好、身份状态和个性化交互
- 工具 / 知识层:包括 MCP、RAG、DeepResearch 等能力
- 模型层:支持 OpenAI-compatible LLM、多模态模型、STT、TTS、人脸识别、说话人识别等
- 存储 / 数据层:支持自托管 memory、文档、向量数据库和工具 API
- 输出层:实时语音、文本、Avatar UI、工具执行结果和中间状态反馈
全模态运行时,而不只是多模态输入
AlphaAvatar 中的 “full multimodal” 不是简单指“可以输入文字、语音和图片”。
我更想强调的是:整个 assistant runtime 都应该能理解和使用全模态上下文。
也就是说,多模态信息不应该只停留在输入层,而应该流经系统中的核心模块:
- Memory 应该能够从文本、语音、视觉帧、人脸身份、说话人身份、用户行为、工具结果和日常习惯中学习长期记忆。
- Persona 不应该只根据文字偏好理解用户,也应该能结合交互风格、语音行为、身份信号和多模态上下文。
- MCP 工具 的选择和调用不应该只依赖最新一条文本 prompt,而应该基于完整运行时上下文。
- RAG / DeepResearch 不应该只处理静态文档,也应该能够结合用户上下文、工具结果,以及未来的视觉 / 事件记忆。
- Status 反馈 应该能描述助手在不同模态和长任务中的执行状态,例如检索 memory、调用工具、读取文档、处理视觉信息等。
- Channel 插件 应该让同一个 assistant runtime 可以运行在 Web、语音、Avatar UI、WhatsApp、Discord 或更多未来渠道中。
所以 AlphaAvatar 的长期目标不是:
文本 + 语音 + 摄像头 → chatbot
而是:
文本 + 语音 + 视觉 + 身份识别 + Memory + Persona + Tools + Channels
↓
全模态个人 AI 助手运行时
这也是为什么 AlphaAvatar 会把 Memory、Persona、MCP、RAG、DeepResearch、Status、Voice、Avatar、Channel integrations 都设计成可组合的 runtime plugins。
理想情况下,每个插件都应该能够消费、产生或更新多模态上下文。
为什么做这个项目
一个真正的个人 AI 助手不应该只是回答问题。
它应该能够:
- 记住长期有用的上下文
- 理解用户的偏好、习惯和日常流程
- 知道当前正在和谁交互
- 跨语音、文本、视觉和外部渠道工作
- 在需要时检索文档和知识
- 调用工具和外部服务
- 在长任务执行过程中给出实时进度反馈
- 随着历史交互逐渐变得更有用
因此,AlphaAvatar 把 Memory、Persona、Tools 和 Multimodal Context 当作一等运行时组件,而不是 chatbot 外围的小功能。
插件化运行时设计
AlphaAvatar 的一个核心设计目标是模块化和可扩展。
核心运行时由 AgentSession、AvatarEngine 等组件负责实时交互、上下文组织和插件编排,不同能力则通过插件接入。
当前主要插件方向包括:
- Memory Plugin:提取、存储、检索并注入长期用户上下文
- Persona Plugin:跟踪用户偏好、身份状态、交互风格和 persona 信息
- MCP Plugin:提供统一的外部工具调用接口
- RAG Plugin:连接文档和知识库
- DeepResearch Plugin:支持更长链路的研究型任务
- Status Plugin:在长任务执行过程中暴露中间状态
- Character / Avatar Plugin:支持 Avatar 风格交互
- Channel Plugins:连接 WhatsApp 等外部渠道
这种插件化架构的好处是:未来新增一个渠道、工具、模型提供方、memory 后端或 avatar 界面时,理论上不需要重写核心 assistant runtime。
实时交互
AlphaAvatar 是面向实时交互设计的,而不只是文本聊天。
当前方向包括:
- 基于 LiveKit RTC 的实时语音交互
- 文本交互
- 采样式摄像头 / 视觉输入
- 人脸检测与识别
- 说话人 / 语音目标检测
- Avatar 风格响应 UI
- 工具执行过程中的 status-aware feedback
对于实时语音助手来说,长时间沉默等待工具调用完成是很不自然的。
所以 AlphaAvatar 中加入了 status-aware feedback loop。比如当助手正在检索 memory、调用 MCP 工具、读取文档,或者执行 DeepResearch 工作流时,它可以输出中间状态,而不是让用户无感等待。
例如:
用户提出问题
↓
助手开始检索上下文
↓
状态:正在搜索 memory
↓
状态:正在调用 MCP 工具
↓
状态:正在读取文档
↓
状态:正在综合结果
↓
最终回答
这种状态反馈对于实时语音助手、长任务执行和多工具调用尤其重要。
Memory 和 Persona 作为一等上下文
AlphaAvatar 中的 Memory 不只是聊天摘要。
我希望 Memory 能成为助手运行时的一部分。
Memory 模块负责从交互中提取长期有价值的信息,并在需要时检索相关上下文重新注入会话。
Persona 模块则负责跟踪用户相关信息,例如:
- 用户偏好
- 身份状态
- 交互风格
- 会话级 persona 信息
- 临时用户到真实用户身份的合并
下一步,我希望把这部分进一步推进到多模态 memory。
也就是说,AlphaAvatar 未来不应该只从文本对话中提取记忆,而应该能够从以下信号中构建结构化记忆:
- 视觉帧
- 语音信号
- 人脸身份
- 说话人身份
- 用户行为
- 环境变化
- 工具执行历史
- 高频重复的日常流程
长期方向是构建 event-style multimodal memory:把人脸、声音、物体、地点、行为、文档、工具和时间连接成一个更有用的个人记忆空间。
自托管与隐私优先
AlphaAvatar 设计成 self-hostable,是因为个人 AI 助手未来一定会处理大量敏感数据。
一个真正的个人 AI 管家可能会知道用户的日常习惯、文档、任务、对话、视觉历史、声音身份、人脸身份、偏好和工作流程。
这些数据默认不应该完全锁在一个封闭的黑盒服务里。
在 AlphaAvatar 的设计中,持久化 memory 和数据存储层可以放在用户自己的个人服务器上,而模型推理可以根据部署方式运行在本地、另一台私有服务器,或者可选的 OpenAI-compatible 外部模型服务上。
换句话说:
个人数据层和模型运行层不一定需要在同一台机器上。
个人服务器可以负责长期 memory、身份上下文、工具状态和私有数据;模型则可以根据用户的成本、性能和隐私需求灵活选择。
接下来计划
接下来我会继续把 AlphaAvatar 往更完整的全模态个人助手方向推进。
一些正在做或计划中的方向包括:
- 更深入地把视觉输入接入 Memory
- 扩展 Persona,使其支持人脸 / 说话人 / 身份感知上下文
- 改进长任务工具链路中的实时状态反馈
- 构建事件式多模态 memory,而不是孤立的图片 caption
- 连接 memory、tools、planning、reminders 和跨渠道工作流
- 让助手逐渐从 session-based chatbot 变成 persistent personal AI butler
项目地址
GitHub: github.com/AlphaAvatar…
文档: docs.alphaavatar.io
官网: alphaavatar.ai
Demo: www.alphaavatar.ai/demo
社区: discord.gg/RVBWbb8Xy
如果你也在关注 realtime agent、全模态 AI、个人助手、Memory / Persona、MCP、RAG、DeepResearch、自托管 AI 或 Avatar 交互方向,欢迎交流。
也非常欢迎对这个方向感兴趣的开发者一起参与贡献。