从零到一:对话式网页自动化Agent【一】

0 阅读2分钟

前言

本系列介绍一个笔者用作学习Agent底层架构、LLM调用、全栈流程等技术的项目;感兴趣的友友一起来学习吧!

关键词:ReAct,沙箱,Playwright,Python全栈;

截图

image.png

一句话介绍

对话式网页自动化执行平台(仿Manus) :在Docker隔离沙箱中,通过对话 +Plan-and-Execute + ReAct Agent,完成指定网站的多步浏览、采集任务,并可进行产物归档,适用于内容巡检、网站信息整理等场景;

核心功能

  • 会话式任务:用户用自然语言发起目标;系统创建/延续会话,持续多轮交互。
  • 规划与执行(Plan-and-Execute + ReAct):先产出可调整的计划,再逐步调用工具执行;步骤与状态以事件形式外显。
  • 浏览器自动化(Playwright):在沙箱内驱动真实浏览器;适合登录、点击、填表、截图、采集等。
  • MCP 工具扩展:将外部能力以 MCP 形式接入,扩展AI tool能力等
  • 文件与产物:通过文件类工具在沙箱/任务产物目录中读写、整理,支持下载、重命名、生成 Markdown 报告等路径。
  • 持久化:会话、消息、事件等落库(PostgreSQL + SQLAlchemy + Alembic),配合 Redis 承担流式队列/任务相关能力

技术栈

  • 前端:TypeScript,React,Vite,Ant Design,React Router,axios
  • 后端:Python,FastAPI,Uvicorn,Pydantic,SQLAlchemy,SSE
  • 自动化与沙箱:Playwright,Docker SDK,Supervisor,CDP,VNC
  • 数据库:Redis,PostgreSQL,Alembic
  • AI:openai SDK,包含MCP,Tools

用户故事

  • 平台定位:对话式网页自动化执行平台
  • 目标用户:需要低门槛完成网页操作与数据/文件产出的业务人员与运营团队
  • 典型场景:
    • 固定站点巡检:登录指定站点并完成固定流程
    • 信息整理:页面采集与截图归档
    • 文件下载、重命名、保存与回传
    • 基于执行过程自动生成报告
  • 功能
    • 用户:
      • 创建/选择会话
      • 配置站点参数:URL/账号信息/执行约束
      • 发起自然语言任务
      • 实时查看事件流
      • 查看历史会话与回放
      • 管理MCP扩展
    • 应用:
      • 执行网页自动化任务
      • 下载执行产物(截图/报告)