模型之外，真正的竞争在 Harness 层 —— Tokeny 1.1.0 发布模型之外，是什么在驱动 Agent？ 2

从 Claude Code 到 DeerFlow，我们在 Agent Harness 这条路上走了多远

模型之外，是什么在驱动 Agent？

2025 年，所有人在谈 Agent。

2026 年，行业开始意识到一个更本质的问题：Agent = Model + Harness。

LangChain 在今年 3 月的技术博文 The Anatomy of an Agent Harness 中给出了清晰的表述：模型本身只能接收输入、生成文本；而让它变成能持续工作的引擎的，是模型之外的一切 —— 系统提示词、工具调用、权限治理、记忆持久化、执行环境、编排逻辑。

这层架构，叫做 Harness。

你可以把它理解为"驾驭层"：模型是马力，Harness 是缰绳、方向盘和仪表盘。没有它，再强的模型也只是一个昂贵的自动补全器。

巨头入场：一场 Harness 的军备竞赛

回顾过去一年，这条赛道的竞争烈度远超想象。

Anthropic 的 Claude Code，可能是最早将 Harness 工程做到极致的产品。三十余种内置工具、CLAUDE.md 分层提示词注入、三级权限管控、HITL 审批流、渐进式技能披露、MCP 协议扩展 —— 它不只是一个 CLI，而是一整套精密的 Agent 操作系统。更关键的是，Anthropic 将模型的后训练（post-training）与 Harness 深度耦合，让 Claude 在自家编排层中表现最优。这不是巧合，这是战略。

OpenAI 的 Codex CLI 紧随其后。Rust 实现、沙箱执行、可配置审批策略、网络隔离 —— 同样的 Harness 思路，不同的工程取向。LangChain 的 Terminal Bench 2.0 排行榜揭示了一个残酷事实：同一个模型在不同 Harness 中的性能差异巨大。Harness 的设计质量，直接决定了 Agent 的上限。

Nous Research 的 Hermes Agent 走得更远。三层记忆系统（冻结快照 + 技能文档 + 全文索引）、自我学习闭环（每 15 次工具调用自动评估并生成可复用技能）、跨平台消息网关 —— 它试图回答一个更前沿的问题：Agent 能不能"越用越强"？

字节跳动的 DeerFlow 2.0 直接在 GitHub 描述里写明了自己的定位："an open-source long-horizon SuperAgent harness"。Supervisor 多 Agent 编排、共享文件系统协作、支持数小时级长周期任务 —— 面向的是更复杂、更真实的工作场景。

还有一个不容忽视的信号：Manus。这家由中国团队创立的 Agent 公司，发布仅 8 个月 ARR 破亿美元，随后被 Meta 以超过 20 亿美元收购 —— 这是 AI Agent 赛道迄今最大的一笔并购。Meta 要的不是又一个模型，而是 Manus 在多 Agent 编排、虚拟执行环境、自主任务分解上积累的Harness 工程能力。当科技巨头愿意为一个"不训练模型"的公司掏出 20 亿美元，你就知道行业的价值重心已经发生了迁移。

模型在被商品化，Harness 才是护城河

看清这条脉络之后，一个判断变得越来越清晰：

模型正在被商品化。真正的竞争力，在 Harness 层。

但 Harness 也分深浅。Manus 被 20 亿美元收购，因为它做了真正的工程深度；OpenClaw 星标 10 万却被平台绞杀，因为它只做了表面的拼装。

谁能更好地管理权限和安全边界？谁能让 Agent 真正拥有跨会话的记忆？谁能在工具生态上做到开放又可控？谁能把这些能力集成进一个普通用户也能用的产品里？

这些问题的答案，不在模型参数里，在工程里。更准确地说，在深层的工程里。

Tokeny：我们在这条路上的实践

Tokeny 从立项之初就押注了 Harness 这条路线。

不是因为看到了行业趋势才跟进 —— 而是因为我们在实际使用中反复撞上同一堵墙：对话式 AI 产品无法在真实工作场景中持续运转，根本原因不是模型不够强，而是模型之外的一切都缺失了。

所以我们做了 Tokeny：一个桌面端的 Agent Harness，让 AI 真正在你的工作环境中扎下根来。

我们已经构建了什么

工作空间：Agent 的隔离沙箱。 大多数 AI 产品的"上下文"只是一段对话记录。Tokeny 的工作空间是一个完整的沙箱单元 —— 独立的文件系统、权限策略、记忆库、会话集合。你的代码仓库是一个工作空间，写作环境是另一个，彼此完全隔离。权限、记忆、技能，全部挂载在工作空间之上。这是 Tokeny 一切能力的锚点。

30+ 内置工具，覆盖 12 个维度。 文件操作、Shell 执行、内容搜索、媒体生成、定时任务、子任务委派、MCP 网关、安全审计…… 其中子任务委派值得一提 —— 主 Agent 可以同时派出多个子 Agent 并行工作，这不是"再开一个对话"，而是真正的 Agent-as-Tool 架构。

Skill 技能系统。 技能是可安装、可卸载、可分享的能力单元，不是硬编码的功能模块。内置 8 个专业 Skill —— 深度研究、代码审查、信息图报告、PPT 生成、数据分析等。其中深度研究是旗舰：并行子 Agent 调研 → Findings 消费闭环（防幻觉）→ 结构化 HTML 可视化报告。

MCP 协议扩展。 连接任意 MCP 服务器按需扩展能力，开放但不失控。

50+ 模型适配。 原生支持 DeepSeek、智谱、Qwen、MiniMax、火山引擎、Ollama 等 7 家服务商，统一适配层自动处理各家差异。换模型不换体验。

双层安全审核。 规则引擎快速拦截 + LLM 语义分析理解意图，危险操作不放过，正常工作流不拖慢。

两层上下文压缩。 无 LLM 快速折叠 + 结构化摘要，100+ 轮对话不崩溃。

1.1.0：新的能力跃升

在上述基座之上，1.1.0 集中发力了三个方向：

三级权限管控。 默认 / 完全访问 / 全自动三种模式，按工作空间独立配置。审批死循环检测 —— Agent 反复请求被拒操作时自动终止，不再无限等待。

长期记忆全面增强。 双层架构（全局 + 工作空间级），7 种结构化分类精确归档，FTS5 全文索引毫秒级检索，三层智能注入按上下文动态选择最相关的记忆，记忆冲突自动合并。

Dream系统。 灵感来自认知科学中"睡眠整理记忆"的隐喻。Agent 空闲时，后台心跳定期清理过期记忆、衰减低活跃度、合并碎片、检测矛盾。记忆系统自我维护，无需人工干预。这与 Hermes Agent 的"自我学习闭环"异曲同工 —— 只是我们选择了更轻量、更可控的路径。

以及： 终端偏好系统、技能 monorepo 安装、工作空间文件实时监听、MiSans 字体集成、设置页分组重构，和一系列稳定性修复。

我们相信的事

回到开头的那个判断。

Claude Code、Codex、Hermes Agent、DeerFlow、Manus —— 这些项目从不同角度验证了同一个命题：模型是引擎，Harness 是整辆车。引擎很重要，但决定你能开去哪里的，是整辆车的设计。而 OpenClaw 的兴衰则提醒我们：仅仅做一层薄壳是不够的，Harness 需要真正的工程纵深。

Tokeny 不是在追随某一个具体产品，而是在这条 Harness 的路线上，面向中文用户的真实场景，做一个完整、可控、持续进化的桌面 Agent。

Tokeny 1.1.0，现已发布。

tokeny.techxh.cn

Tokeny — Turn unthinkable to reality.