🧠 我做了一个能看图、能说话、还能自己执行指令的 AI 机器人：MuseBot🧠 我做了一个能看图、能说话、还能自己

🧠 我做了一个能看图、能说话、还能自己执行指令的 AI 机器人：MuseBot

大家好，我是 MuseBot 的作者。
这段时间我在折腾一个项目 —— 一个能 聊天、识图、说话、执行函数调用，还支持 RAG 的 AI 机器人框架。
它的名字叫 MuseBot。
项目在这里 👉 github.com/yincongcyin…

最开始我只是想做一个能方便接入大模型 API 的聊天机器人。
但在实际开发中，我发现每次要实现一点点功能（比如语音输入、图像识别、流式输出、函数调用）都要重复造轮子。

于是我干脆写了一个完整的框架 ——
让开发者只需简单配置，就能拥有一个真正「智能」的机器人。

我希望 MuseBot 不只是一个会聊天的 bot，而是一个可以和你一起工作的 AI 助手。
它现在已经支持这些功能 👇

MuseBot 可以直接调用各种大模型的 API（OpenAI、Claude、Qwen、DeepSeek 等），
实现自然、上下文连贯的聊天体验。
统一接口，随时切换模型。

支持流式输出，回复可以像 ChatGPT 一样 一字一句实时生成，
大大提升交互体验。

你可以直接把图片发给 MuseBot，它能理解并根据内容进行回答。
比如截图、图表、照片，甚至手写笔记，它都能看懂。
（详情见项目文档 👇）

MuseBot 不止能打字聊天，还能「听你说话、回你声音」。
内置语音识别（ASR）+ 语音合成（TTS），
实现完整的语音对话功能。

MuseBot 支持将 MCP 协议转换为函数调用，
也就是说，模型不仅能“说”，还可以“做”。
比如：

“帮我发一封邮件”
“查询今天的天气”
“生成一张图并发到群里”

模型都能自动触发对应函数执行。

MuseBot 支持 RAG 模式，可以加载你的知识库或文档，
让模型在回答时引用真实数据。
非常适合做企业问答助手、知识文档机器人等。

MuseBot 提供一个可视化的管理平台，
你可以在上面管理机器人、查看状态、监控数据，
就像一个完整的 AI 服务控制中心。

支持多实例注册与监控模块，
可以实时查看调用次数、响应时间、系统性能等。
方便扩展与生产部署。

MuseBot 可以：

几行命令即可启动一个智能机器人。

MuseBot 是一个持续迭代中的开源项目，
我希望它能成为一个让更多人「轻松玩转大模型」的基础框架。

如果你对 大模型应用开发、RAG、Agent 框架 感兴趣，
欢迎来试试、Star⭐、Fork、PR，或者提 Issue 一起完善。

也许下一次，我们能用 MuseBot，
构建出真正属于自己的 AI 智能体 🤖✨