从零到一：对话式网页自动化Agent【一】

2026-04-26 25 阅读2分钟

前言

本系列介绍一个笔者用作学习Agent底层架构、LLM调用、全栈流程等技术的项目；感兴趣的友友一起来学习吧！

关键词：ReAct，沙箱，Playwright，Python全栈；

截图

一句话介绍

对话式网页自动化执行平台（仿Manus） ：在Docker隔离沙箱中，通过对话 +Plan-and-Execute + ReAct Agent，完成指定网站的多步浏览、采集任务，并可进行产物归档，适用于内容巡检、网站信息整理等场景；

核心功能

会话式任务：用户用自然语言发起目标；系统创建/延续会话，持续多轮交互。
规划与执行（Plan-and-Execute + ReAct）：先产出可调整的计划，再逐步调用工具执行；步骤与状态以事件形式外显。
浏览器自动化（Playwright）：在沙箱内驱动真实浏览器；适合登录、点击、填表、截图、采集等。
MCP 工具扩展：将外部能力以 MCP 形式接入，扩展AI tool能力等
文件与产物：通过文件类工具在沙箱/任务产物目录中读写、整理，支持下载、重命名、生成 Markdown 报告等路径。
持久化：会话、消息、事件等落库（PostgreSQL + SQLAlchemy + Alembic），配合 Redis 承担流式队列/任务相关能力

技术栈

前端：TypeScript，React，Vite，Ant Design，React Router，axios
后端：Python，FastAPI，Uvicorn，Pydantic，SQLAlchemy，SSE
自动化与沙箱：Playwright，Docker SDK，Supervisor，CDP，VNC
数据库：Redis，PostgreSQL，Alembic
AI：openai SDK，包含MCP，Tools

用户故事

平台定位：对话式网页自动化执行平台
目标用户：需要低门槛完成网页操作与数据/文件产出的业务人员与运营团队
典型场景：
- 固定站点巡检：登录指定站点并完成固定流程
- 信息整理：页面采集与截图归档
- 文件下载、重命名、保存与回传
- 基于执行过程自动生成报告
功能
- 用户：
  - 创建/选择会话
  - 配置站点参数：URL/账号信息/执行约束
  - 发起自然语言任务
  - 实时查看事件流
  - 查看历史会话与回放
  - 管理MCP扩展
- 应用：
  - 执行网页自动化任务
  - 下载执行产物（截图/报告）