我用 Claude Code 给 Claude Code 做了一个 DevTools基于Claudecode通过vibe

背景：黑盒里的 Agent

用过 Claude Code 的人大概都有同感——它很强，但你永远不知道它在想什么。

一次复杂的 coding session 下来，Agent 可能调了几十次工具、spawn 了若干子代理、读了上百个文件，最终给你一个结果。中间发生了什么？token 花在了哪里？哪个环节做了多余的事？你只能盯着终端滚动的文字猜。

这种"黑盒感"在调试复杂任务时尤为痛苦。当 Agent 给出错误结果，你需要回溯它的决策链路；当 token 用量异常飙高，你想知道是哪个工具调用吃掉了预算；当多个子代理协作时，你想看清它们之间的分支关系。

Chrome 有 DevTools，凭什么 Claude Code 没有？

于是我做了 Claude Devtools——一个本地运行的可视化调试工具，把 Agent 的执行流程从黑盒变成白盒。而有意思的是，这个项目本身就是完全由 Claude Code 编写的。

系统架构

整个系统由四个组件构成，各司其职：

graph TD
    CLI["Claude Code CLI"]
    MITM["mitmproxy\ncapture.py · :9581"]
    API["Anthropic API"]
    PROXY["Proxy Server\nWebSocket · :5555"]
    TRACE["Trace API Server\nExpress · :3001"]
    FE["Frontend · :3000\nDAG 可视化 | Live Monitor"]
    JSONL[("~/.claude/projects\nJSONL 会话文件")]

    CLI -- "HTTPS 请求" --> MITM
    MITM -- "转发" --> API
    API -- "SSE 流式响应" --> MITM
    MITM -- "HTTP POST\n捕获的请求/响应" --> PROXY
    PROXY -- "WebSocket\n实时推送" --> FE
    TRACE -- "REST API" --> FE
    JSONL -. "读取 JSONL" .-> TRACE

mitmproxy + capture.py 作为中间人代理，拦截 Claude CLI 发往 API 的每一次 HTTPS 请求，解析 SSE 流式响应，提取 token 用量、模型参数、对话内容，然后推送给 Proxy Server。

Proxy Server 是一个 WebSocket 广播站，接收 mitmproxy 推来的数据，实时推送给浏览器前端。同时它也承担模板管理——捕获 CLI 的 system prompt 和 tools 定义，供后续复用。

Trace API Server 负责读取 Claude Code 写在本地的 JSONL 会话文件（~/.claude/projects/），提供 RESTful 接口给前端查询项目列表、会话列表和完整事件流。

Frontend 是一个 React 单页应用，包含两个核心视图。

核心功能

Session Traces：DAG 可视化

这是系统的核心。每一次 Claude Code 会话本质上是一条事件链——用户输入、助手回复、工具调用、子代理分派——我把它渲染成一张交互式的有向无环图（DAG）。

节点按类型着色：蓝色 USER、绿色 ASSISTANT、橙色 TOOL、青色 TASK。纵轴是时间线，横轴用泳道（swimlane）展示子代理的并行分支。当 Agent spawn 子代理时，Task 节点向右分叉出独立的执行链，多代理协作关系一目了然。

graph TD
    U1["🟦 USER\n用户输入"]
    A1["🟩 ASSISTANT\n助手回复 + thinking"]
    T1["🟧 TOOL: Bash\n执行命令"]
    A2["🟩 ASSISTANT\n分析结果"]
    T2["🟧 TOOL: Edit\n修改文件"]
    TASK["🟦 TASK: spawn 子代理"]

    subgraph 主链
        U1 --> A1 --> T1 --> A2 --> T2 --> TASK
    end

    SA1["🟩 SubAgent ASSISTANT"]
    ST1["🟧 SubAgent TOOL: Read"]
    SA2["🟩 SubAgent ASSISTANT\n返回结果"]

    subgraph 子代理分支
        TASK --> SA1 --> ST1 --> SA2
    end

    style U1 fill:#1e3a5f,stroke:#60a5fa,color:#f1f5f9
    style A1 fill:#0a2a18,stroke:#4ade80,color:#f1f5f9
    style A2 fill:#0a2a18,stroke:#4ade80,color:#f1f5f9
    style T1 fill:#2d1a06,stroke:#fb923c,color:#f1f5f9
    style T2 fill:#2d1a06,stroke:#fb923c,color:#f1f5f9
    style TASK fill:#0a1a18,stroke:#2dd4bf,color:#f1f5f9
    style SA1 fill:#0a2a18,stroke:#4ade80,color:#f1f5f9
    style ST1 fill:#2d1a06,stroke:#fb923c,color:#f1f5f9
    style SA2 fill:#0a2a18,stroke:#4ade80,color:#f1f5f9

为了避免线性链路上几十个节点挤在一起，我实现了自动折叠——连续的无分支节点被压缩成一个带计数的折叠节点，点击后在侧面板展开详情。这让一个 200+ 事件的会话仍然保持可读。

点击任意节点，右侧面板展示完整元数据：thinking 块、工具输入参数、执行结果、Edit 操作的 diff 对比，以及原始 JSON。

Live Monitor：实时流量监控

第二个视图是实时 API 监控。通过 mitmproxy 拦截，你可以看到 Claude Code 发出的每一次 API 调用——请求参数被结构化拆解为 model、messages、system prompt、tools 定义、temperature 等语义模块，每项可折叠展开。

实时 Token 统计面板汇总 input/output/cache_read/cache_creation 四类 token 数量和累计费用，让你精确掌握成本开销。对话轮次可逐轮展开，审查 Agent 实际发出的 Bash 命令、文件编辑操作和思考过程。

其他细节

会话浏览器：左侧边栏按项目目录组织所有会话，显示事件数、时间戳、子代理数量标记
全局搜索：按关键词过滤节点，快速定位目标事件
深色/浅色主题：右上角一键切换，所有组件通过 CSS 变量统一响应
一键启动脚本：start-devtools.sh 自动拉起全部四个服务并配置代理环境变量

技术选型

graph LR
    subgraph 前端
        React["React 18"]
        TS["TypeScript"]
        XY["@xyflow/react"]
        Dagre["dagre 布局"]
        TW["Tailwind CSS"]
    end

    subgraph 后端
        Express["Express 4"]
        WS["WebSocket (ws)"]
        JSONL["JSONL 逐行解析"]
    end

    subgraph 流量捕获
        Mitm["mitmproxy"]
        Py["capture.py addon"]
    end

    subgraph 构建
        Vite["Vite 5"]
        TSX["tsx runtime"]
    end

前端用 React 18 + TypeScript，图渲染基于 @xyflow/react（前身 React Flow），布局算法是自研的时间戳 + 泳道布局配合 dagre 辅助。后端用 Express + WebSocket，流量捕获用 mitmproxy 的 Python addon。全程本地运行，不上传任何数据。

用 Claude 构建 Claude 的调试器

这个项目有一个自指的有趣之处：整个 Claude Devtools 从第一行代码到最终产品，全部由 Claude Code 编写。

我的角色更像是产品经理——提出需求、审查产出、决定方向。具体的架构设计、代码实现、bug 修复，全部交给 Claude Code 完成。下面是整个开发过程中的人机协作流程：

graph LR
    ME["👤 我\n提需求 / 审查 / 决策"]
    CC["🤖 Claude Code\n架构 / 编码 / 调试"]
    DT["🛠️ Claude Devtools\n可视化产物"]

    ME -- "描述功能需求" --> CC
    CC -- "生成完整实现" --> DT
    DT -- "观测 Agent 行为" --> ME
    ME -- "发现问题，反馈优化方向" --> CC

这形成了一个闭环：我用 Claude Code 写代码 → Devtools 观测它的执行过程 → 发现可优化的点 → 再用 Claude Code 改进。工具自己成了自己的调试对象。

整个项目开发周期约一周，期间没有手写一行业务代码。React 组件、Express 服务、mitmproxy 插件、DAG 布局算法、WebSocket 通信协议——所有模块都是在对话中通过自然语言描述需求，由 Claude Code 一次性或迭代生成的。这本身也验证了 Claude Code 处理中等复杂度全栈项目的能力。

截图

对话轮次展示

工具列表

响应内容

写在最后

这个工具本质上解决的是可观测性问题。LLM Agent 的执行流程越来越复杂——多轮对话、工具编排、子代理协作——如果没有合适的观测手段，调试和优化就只能靠猜。

Claude Devtools 把 Agent 的每一步决策摊开在 DAG 上，让你像调试程序一样调试 Agent。而它自身的诞生过程，恰恰证明了被调试对象的能力——用 Claude 构建 Claude 的调试器，这大概是最好的能力背书。 github地址如下，欢迎各位大佬star

github.com/invictuskai…