前言
本系列介绍一个笔者用作学习Agent底层架构、LLM调用、全栈流程等技术的项目;感兴趣的友友一起来学习吧!
关键词:ReAct,沙箱,Playwright,Python全栈;
截图
一句话介绍
对话式网页自动化执行平台(仿Manus) :在Docker隔离沙箱中,通过对话 +Plan-and-Execute + ReAct Agent,完成指定网站的多步浏览、采集任务,并可进行产物归档,适用于内容巡检、网站信息整理等场景;
核心功能
- 会话式任务:用户用自然语言发起目标;系统创建/延续会话,持续多轮交互。
- 规划与执行(Plan-and-Execute + ReAct):先产出可调整的计划,再逐步调用工具执行;步骤与状态以事件形式外显。
- 浏览器自动化(Playwright):在沙箱内驱动真实浏览器;适合登录、点击、填表、截图、采集等。
- MCP 工具扩展:将外部能力以 MCP 形式接入,扩展AI tool能力等
- 文件与产物:通过文件类工具在沙箱/任务产物目录中读写、整理,支持下载、重命名、生成 Markdown 报告等路径。
- 持久化:会话、消息、事件等落库(PostgreSQL + SQLAlchemy + Alembic),配合 Redis 承担流式队列/任务相关能力
技术栈
- 前端:TypeScript,React,Vite,Ant Design,React Router,axios
- 后端:Python,FastAPI,Uvicorn,Pydantic,SQLAlchemy,SSE
- 自动化与沙箱:Playwright,Docker SDK,Supervisor,CDP,VNC
- 数据库:Redis,PostgreSQL,Alembic
- AI:openai SDK,包含MCP,Tools
用户故事
- 平台定位:对话式网页自动化执行平台
- 目标用户:需要低门槛完成网页操作与数据/文件产出的业务人员与运营团队
- 典型场景:
- 固定站点巡检:登录指定站点并完成固定流程
- 信息整理:页面采集与截图归档
- 文件下载、重命名、保存与回传
- 基于执行过程自动生成报告
- 功能
- 用户:
- 创建/选择会话
- 配置站点参数:URL/账号信息/执行约束
- 发起自然语言任务
- 实时查看事件流
- 查看历史会话与回放
- 管理MCP扩展
- 应用:
- 执行网页自动化任务
- 下载执行产物(截图/报告)
- 用户: