Craft Agents 爆火解析：Agent 工具从“命令行玩具”走向“工作流系统”最近，Agent 类开源项目又火了

一个刚开源不久的 Agent 项目，GitHub 已收获 5.8k Star。它不是聊天套壳，也不是简单的 MCP 集成，而是一套真正的 Agent 工作台——解决多任务、多数据源、权限控制、后台执行等工程化难题。

最近，Agent 类开源项目又火了一个——Craft Agents。
项目地址：lukilabs/craft-agents-oss

一、Craft Agents 是什么？

Craft Agents 是一个开源的 Agent 工作台（Agent Workbench）。
它不是一个单纯的聊天界面，而是一套帮助用户高效与 Agent 协作的工具，包括：

多会话收件箱
多模型连接
MCP / REST API / 本地文件接入
权限分级控制
后台任务
动态状态流转
Skills 技能封装
自动化事件触发

官方明确提到，它同时使用了 Claude Agent SDK 和 Pi SDK，并基于 Agent Native software 理念构建。

简单理解：
Craft Agents = 桌面端 Agent 工作台 + 多模型连接 + 多数据源接入 + 会话管理 + 权限控制 + 自动化任务编排。

它不是让你问一句答一句，而是把 Agent 当作一个可以持续工作的 执行单元。

二、为什么它会突然火起来？

过去一年，很多 Agent 工具强调：

调用工具
读文件 / 写代码 / 跑命令
接入 MCP / 浏览器
多步推理

但它们普遍存在一个问题：能力很强，工作流很散。
让 Agent 改一个文件没问题，但让它同时管理多个任务、多个数据源、多个权限状态、多个执行进度，就开始混乱。

Craft Agents 的切入点不是让模型更聪明，而是给 Agent 一个更接近真实工作台的运行环境。
这正是它能在 GitHub 上快速冲到 5.8k Star、779 Fork 的原因。

三、它解决的不是“聊天”，而是 Agent 工作流管理

真正进入工程场景后，一个可落地的 Agent 工具至少要解决 5 个问题：

问题	传统聊天工具	Craft Agents 工作台
多任务管理	多个窗口 / 上下文混乱	多 Session 收件箱 + 状态流转
工具接入	手工配置居多	Sources（MCP / API / 本地文件）
权限控制	容易“一把梭”	Explore / Ask / Auto 分级模式
长任务执行	容易中断	Background Tasks
过程追踪	看聊天记录	Inbox / Archive / Flagging / 状态机

Craft Agents 的设计思路很清晰：不要只把 Agent 当成聊天对象，而是把它当作工作流节点。

四、核心能力拆解

1. Multi-Session Inbox：Agent 任务也需要“收件箱”

当 Agent 真正进入工作流，它不再是单个聊天窗口，而是多个并行任务：

整理需求文档
分析日志
修改自动化脚本
接入 Slack / Gmail
跑后台任务

Craft Agents 提供了类似 Inbox 的多会话管理，支持 Todo → In Progress → Needs Review → Done 的状态流转，并支持会话持久化、归档、标记。
这意味着 Agent 工具开始具备轻量级任务管理的味道。

2. Sources：从读文件到连接真实系统

Sources 可以连接：

MCP Servers
REST APIs
本地文件系统

示例包括：Craft、Linear、GitHub、Notion、Google、Slack、Microsoft、本地文件、Obsidian vault、Git 仓库等。

企业里的工作不是发生在一个文件里，而是分散在邮件、工单、代码仓库、文档、IM、CI/CD、自动化测试平台中。
Sources 的本质，是把 Agent 的上下文边界从聊天窗口扩展到真实工作环境。

3. Permission Modes：能力越强，越需要权限边界

Craft Agents 提供了三种权限模式：

模式	含义	适用场景
Explore	只读，阻止写操作	查资料、读代码、分析日志
Ask to Edit	修改前需要确认	改代码、改文档、调配置
Auto	自动批准命令	沙箱环境、低风险自动化

这才是 Agent 工程化落地的关键：该自动的自动，该确认的确认，该隔离的隔离。

4. Skills：让 Agent 从“通用助手”变成“岗位助手”

Skills 是存储在 workspace 里的专用 Agent instructions。
通用 Prompt 很难解决复杂岗位问题，真正有价值的是把组织经验沉淀成可复用技能，例如：

需求评审 Skill
接口测试用例生成 Skill
性能瓶颈分析 Skill
Playwright 脚本生成 Skill
测试报告总结 Skill

5. Automations：Agent 开始进入事件驱动阶段

可以基于以下事件自动创建 Agent sessions：

标签变化
时间计划
工具使用

例如测试场景：

新需求进入评审 → 自动生成测试点
PR 创建 → 自动分析变更影响范围
CI 失败 → 自动读取日志并归因
线上告警 → 自动生成初步排查报告

这就是从 Chatbot → Agent Workflow 的变化。

五、与 Claude Code、MCP、普通聊天工具的区别

工具类型	主要解决什么	典型能力	局限
普通 AI 聊天工具	问答与内容生成	对话、总结、写作	工作流弱，工具接入有限
Claude Code / Codex	代码工程任务	读代码、改代码、跑命令	偏开发场景，任务管理较弱
MCP	工具协议与连接层	让模型调用外部工具	不是完整工作台
Craft Agents	Agent 工作台	多会话、Sources、权限、后台、自动化	仍需验证复杂场景稳定性

Craft Agents 不是替代 MCP 或 Claude Code，而是把模型、工具、数据源、权限、会话和自动化放在一个桌面应用里统一管理。

六、架构视角：Craft Agents 做对了什么？

┌─────────────────────────────────────────┐
│                 UI 层                    │  ← 可视化 Agent 工作
├─────────────────────────────────────────┤
│              Session 层                  │  ← 任务可管理
├─────────────────────────────────────────┤
│              Agent 层                    │  ← 模型可替换
├─────────────────────────────────────────┤
│             Sources 层                   │  ← 上下文可扩展
├─────────────────────────────────────────┤
│           Permission 层                  │  ← 执行可控
├─────────────────────────────────────────┤
│              Skills 层                   │  ← 经验可复用
├─────────────────────────────────────────┤
│           Automation 层                  │  ← 流程可触发
└─────────────────────────────────────────┘

这套分层比单纯做一个聊天框更接近工程化系统。

七、对测试开发 / 自动化测试 / 研发效能的启发

测试工作天然就是 多系统、多数据、多流程、多角色 的。
如果 Agent 只会聊天，价值有限；但如果它能连接真实系统并按权限规则执行任务，就能真正进入测试工作流。

场景 1：需求评审 → 自动生成测试分析

Agent 读取需求文档 + 历史缺陷 + 接口文档 → 输出测试点、风险提示、回归建议。
测试工程师重点做判断，而不是重复整理。

场景 2：CI 失败 → 自动归因

Agent 读取失败日志 + 代码变更 + 环境配置 → 输出初步归因（定位器失效/等待策略/环境问题等）。

场景 3：自动化脚本维护

Agent 结合 Git 仓库 + 脚本 + 失败日志 + DOM 变化 → 分析是定位器失效、等待不合理、还是页面流程变化。

真正难的不是写第一版脚本，而是长期维护。

八、真实风险与挑战

1. 权限风险

写文件 / 删除文件 / 执行 shell / 调生产接口 / 访问数据库
必须严格执行 读写分离 + 确认机制。

2. 上下文污染风险

接入数据源越多，越容易读错版本、混淆环境、引用过期文档。
需要做好 数据源分级、版本管理、可追溯引用。

3. 自动执行风险

Auto 模式很爽，但风险最高。建议原则：

读操作可自动
写操作需确认
高风险操作默认禁止

4. 评估风险

Agent 输出看起来很完整，不代表它是对的。
测试团队需要建立 输出验证机制：测试点是否遗漏？脚本是否可维护？归因是否有证据链？

九、Craft Agents 给行业释放的信号

Agent 工具正在从 单点能力 走向 工作流系统。

过去我们关注：

模型能不能写代码？
Agent 能不能调用工具？
MCP 能不能接入更多服务？

接下来更重要的问题会变成：

Agent 会话怎么管理？
任务怎么编排？
权限怎么控制？
输出怎么审计？
技能怎么复用？
怎么接入企业真实系统？
怎么和人的工作流协同？

这才是 Agent 工程化的主战场。

十、写在最后：Agent 的下一站，是可控的工程系统

Craft Agents 没有停留在“模型能力展示”，而是开始处理 Agent 真正落地时绕不开的问题：
任务、会话、权限、工具、数据源、技能、自动化。

真正能落地的 Agent 系统，必须满足三个条件：

能连接真实工作环境
能沉淀团队经验和流程
能在权限边界内稳定执行任务

对于测试开发同学来说，未来的测试能力不只是会写用例、会写脚本、会搭平台，更重要的是：
你能不能把测试流程、质量规则、自动化能力和 Agent 工作流结合起来。

Craft Agents 这类工具，正是这个变化的一个早期信号。

推荐阅读
juejin.cn/post/755103…

juejin.cn/post/755124…

juejin.cn/post/753578…