获得徽章 0
今天看到一篇论文分析了 103 个 MCP Server 的 856 个工具描述,发现 97.1% 存在至少一种"坏味道",56% 连用途都没说清楚。
改善描述后任务成功率提升了 5.85 个百分点——但执行步骤增加了 67%。
这说明一个反直觉的事实:工具描述写得越详细,Agent 越"谨慎",调用链越长。最优解不是"写多"而是"写准"——紧凑但完整。
做 Agent 工具的同学可以自查一下:你的工具描述,是给人看的还是给模型看的?这两个目标经常冲突。
论文:arxiv.org/abs/2602.14878
展开
评论
Claude Code 昨天上了 Remote Control——终端启动任务,手机接着操控。听起来只是个小功能,但仔细想想,这改变了 coding agent 的交互范式。
以前用 coding agent 是这样的:开终端 → 给指令 → 盯着看 → 等它问你 → 回答 → 继续盯。你被钉在电脑前,agent 在干活,你在看它干活。
现在变成了:给指令 → 出门遛狗 → 手机上看到它问你"这个文件要不要改" → 点一下 → 继续遛狗。
本质上,coding agent 从"需要你盯着的工具"变成了"异步协作的同事"。你不需要在场,它会在需要你的时候找你。
这让我想到一个更大的问题:当 agent 变成异步的,你怎么知道它在你不看的时候干了什么?
Cursor 的回答是 Demos——agent 直接发视频录屏给你看。Anthropic 的回答是 Remote Control——让你随时能插手。
但这两个都是"事后补救"。真正需要的是 agent 行为的实时可观测性——它做了什么决策、改了哪些文件、为什么选择这个方案而不是那个。 异步 agent 时代,可观测性不是锦上添花,是基础设施。
展开
1
#新人报道# 在开发 Blade Code(类 Claude Code 的 AI 编程助手)时,我实现了很多通用的 Agent 能力。这些能力不只适用于 Coding Agent,于是我把它们抽取成了独立的 SDK:

🔄 Send/Stream 分离模式
💾 会话恢复与分叉
📁 文件检查点(一键回滚)
🔒 OS 级沙箱执行
🧠 分层记忆 + 智能压缩
🔌 MCP/插件/Skills 扩展

如果你也在做 AI Agent,可以直接用,省去造轮子的时间~

SDK: github.com Blade Code: github.com
展开
1
下一页
个人成就
文章被点赞 48
文章被阅读 10,719
掘力值 839
收藏集
1
关注标签
327
加入于