从 Claude Code 到 DeerFlow,我们在 Agent Harness 这条路上走了多远
模型之外,是什么在驱动 Agent?
2025 年,所有人在谈 Agent。
2026 年,行业开始意识到一个更本质的问题:Agent = Model + Harness。
LangChain 在今年 3 月的技术博文 The Anatomy of an Agent Harness 中给出了清晰的表述:模型本身只能接收输入、生成文本;而让它变成能持续工作的引擎的,是模型之外的一切 —— 系统提示词、工具调用、权限治理、记忆持久化、执行环境、编排逻辑。
这层架构,叫做 Harness。
你可以把它理解为"驾驭层":模型是马力,Harness 是缰绳、方向盘和仪表盘。没有它,再强的模型也只是一个昂贵的自动补全器。
巨头入场:一场 Harness 的军备竞赛
回顾过去一年,这条赛道的竞争烈度远超想象。
Anthropic 的 Claude Code,可能是最早将 Harness 工程做到极致的产品。三十余种内置工具、CLAUDE.md 分层提示词注入、三级权限管控、HITL 审批流、渐进式技能披露、MCP 协议扩展 —— 它不只是一个 CLI,而是一整套精密的 Agent 操作系统。更关键的是,Anthropic 将模型的后训练(post-training)与 Harness 深度耦合,让 Claude 在自家编排层中表现最优。这不是巧合,这是战略。
OpenAI 的 Codex CLI 紧随其后。Rust 实现、沙箱执行、可配置审批策略、网络隔离 —— 同样的 Harness 思路,不同的工程取向。LangChain 的 Terminal Bench 2.0 排行榜揭示了一个残酷事实:同一个模型在不同 Harness 中的性能差异巨大。Harness 的设计质量,直接决定了 Agent 的上限。
Nous Research 的 Hermes Agent 走得更远。三层记忆系统(冻结快照 + 技能文档 + 全文索引)、自我学习闭环(每 15 次工具调用自动评估并生成可复用技能)、跨平台消息网关 —— 它试图回答一个更前沿的问题:Agent 能不能"越用越强"?
字节跳动的 DeerFlow 2.0 直接在 GitHub 描述里写明了自己的定位:"an open-source long-horizon SuperAgent harness"。Supervisor 多 Agent 编排、共享文件系统协作、支持数小时级长周期任务 —— 面向的是更复杂、更真实的工作场景。
还有一个不容忽视的信号:Manus。这家由中国团队创立的 Agent 公司,发布仅 8 个月 ARR 破亿美元,随后被 Meta 以超过 20 亿美元收购 —— 这是 AI Agent 赛道迄今最大的一笔并购。Meta 要的不是又一个模型,而是 Manus 在多 Agent 编排、虚拟执行环境、自主任务分解上积累的Harness 工程能力。当科技巨头愿意为一个"不训练模型"的公司掏出 20 亿美元,你就知道行业的价值重心已经发生了迁移。
模型在被商品化,Harness 才是护城河
看清这条脉络之后,一个判断变得越来越清晰:
模型正在被商品化。真正的竞争力,在 Harness 层。
但 Harness 也分深浅。Manus 被 20 亿美元收购,因为它做了真正的工程深度;OpenClaw 星标 10 万却被平台绞杀,因为它只做了表面的拼装。
谁能更好地管理权限和安全边界?谁能让 Agent 真正拥有跨会话的记忆?谁能在工具生态上做到开放又可控?谁能把这些能力集成进一个普通用户也能用的产品里?
这些问题的答案,不在模型参数里,在工程里。更准确地说,在深层的工程里。
Tokeny:我们在这条路上的实践
Tokeny 从立项之初就押注了 Harness 这条路线。
不是因为看到了行业趋势才跟进 —— 而是因为我们在实际使用中反复撞上同一堵墙:对话式 AI 产品无法在真实工作场景中持续运转,根本原因不是模型不够强,而是模型之外的一切都缺失了。
所以我们做了 Tokeny:一个桌面端的 Agent Harness,让 AI 真正在你的工作环境中扎下根来。
我们已经构建了什么
工作空间:Agent 的隔离沙箱。 大多数 AI 产品的"上下文"只是一段对话记录。Tokeny 的工作空间是一个完整的沙箱单元 —— 独立的文件系统、权限策略、记忆库、会话集合。你的代码仓库是一个工作空间,写作环境是另一个,彼此完全隔离。权限、记忆、技能,全部挂载在工作空间之上。这是 Tokeny 一切能力的锚点。
30+ 内置工具,覆盖 12 个维度。 文件操作、Shell 执行、内容搜索、媒体生成、定时任务、子任务委派、MCP 网关、安全审计…… 其中子任务委派值得一提 —— 主 Agent 可以同时派出多个子 Agent 并行工作,这不是"再开一个对话",而是真正的 Agent-as-Tool 架构。
Skill 技能系统。 技能是可安装、可卸载、可分享的能力单元,不是硬编码的功能模块。内置 8 个专业 Skill —— 深度研究、代码审查、信息图报告、PPT 生成、数据分析等。其中深度研究是旗舰:并行子 Agent 调研 → Findings 消费闭环(防幻觉)→ 结构化 HTML 可视化报告。
MCP 协议扩展。 连接任意 MCP 服务器按需扩展能力,开放但不失控。
50+ 模型适配。 原生支持 DeepSeek、智谱、Qwen、MiniMax、火山引擎、Ollama 等 7 家服务商,统一适配层自动处理各家差异。换模型不换体验。
双层安全审核。 规则引擎快速拦截 + LLM 语义分析理解意图,危险操作不放过,正常工作流不拖慢。
两层上下文压缩。 无 LLM 快速折叠 + 结构化摘要,100+ 轮对话不崩溃。
1.1.0:新的能力跃升
在上述基座之上,1.1.0 集中发力了三个方向:
三级权限管控。 默认 / 完全访问 / 全自动三种模式,按工作空间独立配置。审批死循环检测 —— Agent 反复请求被拒操作时自动终止,不再无限等待。
长期记忆全面增强。 双层架构(全局 + 工作空间级),7 种结构化分类精确归档,FTS5 全文索引毫秒级检索,三层智能注入按上下文动态选择最相关的记忆,记忆冲突自动合并。
Dream系统。 灵感来自认知科学中"睡眠整理记忆"的隐喻。Agent 空闲时,后台心跳定期清理过期记忆、衰减低活跃度、合并碎片、检测矛盾。记忆系统自我维护,无需人工干预。这与 Hermes Agent 的"自我学习闭环"异曲同工 —— 只是我们选择了更轻量、更可控的路径。
以及: 终端偏好系统、技能 monorepo 安装、工作空间文件实时监听、MiSans 字体集成、设置页分组重构,和一系列稳定性修复。
我们相信的事
回到开头的那个判断。
Claude Code、Codex、Hermes Agent、DeerFlow、Manus —— 这些项目从不同角度验证了同一个命题:模型是引擎,Harness 是整辆车。引擎很重要,但决定你能开去哪里的,是整辆车的设计。而 OpenClaw 的兴衰则提醒我们:仅仅做一层薄壳是不够的,Harness 需要真正的工程纵深。
Tokeny 不是在追随某一个具体产品,而是在这条 Harness 的路线上,面向中文用户的真实场景,做一个完整、可控、持续进化的桌面 Agent。
Tokeny 1.1.0,现已发布。
Tokeny — Turn unthinkable to reality.