Craft Agents 爆火解析:Agent 工具从“命令行玩具”走向“工作流系统”

29 阅读7分钟

一个刚开源不久的 Agent 项目,GitHub 已收获 5.8k Star。它不是聊天套壳,也不是简单的 MCP 集成,而是一套真正的 Agent 工作台——解决多任务、多数据源、权限控制、后台执行等工程化难题。

最近,Agent 类开源项目又火了一个——Craft Agents
项目地址:lukilabs/craft-agents-oss


一、Craft Agents 是什么?

Craft Agents 是一个开源的 Agent 工作台(Agent Workbench)
它不是一个单纯的聊天界面,而是一套帮助用户高效与 Agent 协作的工具,包括:

  • 多会话收件箱
  • 多模型连接
  • MCP / REST API / 本地文件接入
  • 权限分级控制
  • 后台任务
  • 动态状态流转
  • Skills 技能封装
  • 自动化事件触发

官方明确提到,它同时使用了 Claude Agent SDKPi SDK,并基于 Agent Native software 理念构建。

简单理解:
Craft Agents = 桌面端 Agent 工作台 + 多模型连接 + 多数据源接入 + 会话管理 + 权限控制 + 自动化任务编排。

它不是让你问一句答一句,而是把 Agent 当作一个可以持续工作的 执行单元


二、为什么它会突然火起来?

过去一年,很多 Agent 工具强调:

  • 调用工具
  • 读文件 / 写代码 / 跑命令
  • 接入 MCP / 浏览器
  • 多步推理

但它们普遍存在一个问题:能力很强,工作流很散
让 Agent 改一个文件没问题,但让它同时管理多个任务、多个数据源、多个权限状态、多个执行进度,就开始混乱。

Craft Agents 的切入点不是让模型更聪明,而是给 Agent 一个更接近真实工作台的运行环境
这正是它能在 GitHub 上快速冲到 5.8k Star、779 Fork 的原因。


三、它解决的不是“聊天”,而是 Agent 工作流管理

真正进入工程场景后,一个可落地的 Agent 工具至少要解决 5 个问题:

问题传统聊天工具Craft Agents 工作台
多任务管理多个窗口 / 上下文混乱多 Session 收件箱 + 状态流转
工具接入手工配置居多Sources(MCP / API / 本地文件)
权限控制容易“一把梭”Explore / Ask / Auto 分级模式
长任务执行容易中断Background Tasks
过程追踪看聊天记录Inbox / Archive / Flagging / 状态机

Craft Agents 的设计思路很清晰:不要只把 Agent 当成聊天对象,而是把它当作工作流节点。


四、核心能力拆解

1. Multi-Session Inbox:Agent 任务也需要“收件箱”

当 Agent 真正进入工作流,它不再是单个聊天窗口,而是多个并行任务:

  • 整理需求文档
  • 分析日志
  • 修改自动化脚本
  • 接入 Slack / Gmail
  • 跑后台任务

Craft Agents 提供了类似 Inbox 的多会话管理,支持 Todo → In Progress → Needs Review → Done 的状态流转,并支持会话持久化、归档、标记。
这意味着 Agent 工具开始具备轻量级任务管理的味道。

2. Sources:从读文件到连接真实系统

Sources 可以连接:

  • MCP Servers
  • REST APIs
  • 本地文件系统

示例包括:Craft、Linear、GitHub、Notion、Google、Slack、Microsoft、本地文件、Obsidian vault、Git 仓库等。

企业里的工作不是发生在一个文件里,而是分散在邮件、工单、代码仓库、文档、IM、CI/CD、自动化测试平台中。
Sources 的本质,是把 Agent 的上下文边界从聊天窗口扩展到真实工作环境。

3. Permission Modes:能力越强,越需要权限边界

Craft Agents 提供了三种权限模式:

模式含义适用场景
Explore只读,阻止写操作查资料、读代码、分析日志
Ask to Edit修改前需要确认改代码、改文档、调配置
Auto自动批准命令沙箱环境、低风险自动化

这才是 Agent 工程化落地的关键:该自动的自动,该确认的确认,该隔离的隔离。

4. Skills:让 Agent 从“通用助手”变成“岗位助手”

Skills 是存储在 workspace 里的专用 Agent instructions。
通用 Prompt 很难解决复杂岗位问题,真正有价值的是把组织经验沉淀成可复用技能,例如:

  • 需求评审 Skill
  • 接口测试用例生成 Skill
  • 性能瓶颈分析 Skill
  • Playwright 脚本生成 Skill
  • 测试报告总结 Skill

5. Automations:Agent 开始进入事件驱动阶段

可以基于以下事件自动创建 Agent sessions:

  • 标签变化
  • 时间计划
  • 工具使用

例如测试场景:

  • 新需求进入评审 → 自动生成测试点
  • PR 创建 → 自动分析变更影响范围
  • CI 失败 → 自动读取日志并归因
  • 线上告警 → 自动生成初步排查报告

这就是从 Chatbot → Agent Workflow 的变化。


五、与 Claude Code、MCP、普通聊天工具的区别

工具类型主要解决什么典型能力局限
普通 AI 聊天工具问答与内容生成对话、总结、写作工作流弱,工具接入有限
Claude Code / Codex代码工程任务读代码、改代码、跑命令偏开发场景,任务管理较弱
MCP工具协议与连接层让模型调用外部工具不是完整工作台
Craft AgentsAgent 工作台多会话、Sources、权限、后台、自动化仍需验证复杂场景稳定性

Craft Agents 不是替代 MCP 或 Claude Code,而是把模型、工具、数据源、权限、会话和自动化放在一个桌面应用里统一管理。


六、架构视角:Craft Agents 做对了什么?

┌─────────────────────────────────────────┐
│                 UI 层                    │  ← 可视化 Agent 工作
├─────────────────────────────────────────┤
│              Session 层                  │  ← 任务可管理
├─────────────────────────────────────────┤
│              Agent 层                    │  ← 模型可替换
├─────────────────────────────────────────┤
│             Sources 层                   │  ← 上下文可扩展
├─────────────────────────────────────────┤
│           Permission 层                  │  ← 执行可控
├─────────────────────────────────────────┤
│              Skills 层                   │  ← 经验可复用
├─────────────────────────────────────────┤
│           Automation 层                  │  ← 流程可触发
└─────────────────────────────────────────┘

这套分层比单纯做一个聊天框更接近工程化系统。


七、对测试开发 / 自动化测试 / 研发效能的启发

测试工作天然就是 多系统、多数据、多流程、多角色 的。
如果 Agent 只会聊天,价值有限;但如果它能连接真实系统并按权限规则执行任务,就能真正进入测试工作流。

场景 1:需求评审 → 自动生成测试分析

Agent 读取需求文档 + 历史缺陷 + 接口文档 → 输出测试点、风险提示、回归建议。
测试工程师重点做判断,而不是重复整理。

场景 2:CI 失败 → 自动归因

Agent 读取失败日志 + 代码变更 + 环境配置 → 输出初步归因(定位器失效/等待策略/环境问题等)。

场景 3:自动化脚本维护

Agent 结合 Git 仓库 + 脚本 + 失败日志 + DOM 变化 → 分析是定位器失效、等待不合理、还是页面流程变化。

真正难的不是写第一版脚本,而是长期维护。


八、真实风险与挑战

1. 权限风险

  • 写文件 / 删除文件 / 执行 shell / 调生产接口 / 访问数据库
    必须严格执行 读写分离 + 确认机制

2. 上下文污染风险

接入数据源越多,越容易读错版本、混淆环境、引用过期文档。
需要做好 数据源分级、版本管理、可追溯引用

3. 自动执行风险

Auto 模式很爽,但风险最高。建议原则:

  • 读操作可自动
  • 写操作需确认
  • 高风险操作默认禁止

4. 评估风险

Agent 输出看起来很完整,不代表它是对的。
测试团队需要建立 输出验证机制:测试点是否遗漏?脚本是否可维护?归因是否有证据链?


九、Craft Agents 给行业释放的信号

Agent 工具正在从 单点能力 走向 工作流系统

过去我们关注:

  • 模型能不能写代码?
  • Agent 能不能调用工具?
  • MCP 能不能接入更多服务?

接下来更重要的问题会变成:

  • Agent 会话怎么管理?
  • 任务怎么编排?
  • 权限怎么控制?
  • 输出怎么审计?
  • 技能怎么复用?
  • 怎么接入企业真实系统?
  • 怎么和人的工作流协同?

这才是 Agent 工程化的主战场。


十、写在最后:Agent 的下一站,是可控的工程系统

Craft Agents 没有停留在“模型能力展示”,而是开始处理 Agent 真正落地时绕不开的问题:
任务、会话、权限、工具、数据源、技能、自动化。

真正能落地的 Agent 系统,必须满足三个条件:

  1. 能连接真实工作环境
  2. 能沉淀团队经验和流程
  3. 能在权限边界内稳定执行任务

对于测试开发同学来说,未来的测试能力不只是会写用例、会写脚本、会搭平台,更重要的是:
你能不能把测试流程、质量规则、自动化能力和 Agent 工作流结合起来。

Craft Agents 这类工具,正是这个变化的一个早期信号。


推荐阅读
juejin.cn/post/755103…

juejin.cn/post/755124…

juejin.cn/post/753578…