首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AI相关开发
渐儿
创建于2026-04-30
订阅专栏
xyh
等 2 人订阅
共133篇文章
创建于2026-04-30
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大模型推理加速指南
目录 一、推理性能基础 二、性能瓶颈分析 三、KV Cache 优化 四、连续批处理(Continuous Batching) 五、量化技术 六、推测解码(Speculative Decoding)
基于 MCP 协议的工具开发指南
目录 一、MCP 协议简介 二、核心架构 三、协议消息 四、Tools / Resources / Prompts 五、Python SDK 开发 六、TypeScript SDK 开发 七、传输层
A2A 多智能体协作指南(Google Agent2Agent 协议)
目录 一、A2A 协议概述 二、核心概念 三、协议规范 四、Agent Card 五、消息与任务流 六、Python SDK 实战 七、TypeScript SDK 实战 八、多智能体编排模式 九、流
上下文工程 · 20 · 隐私、合规与记忆的生命周期
0. 隐私是默认的工程约束,不是事后补丁 很多 agent 团队把隐私当作"上线前补一下"的合规项。实际上隐私决策影响: 存什么(Memory、日志、cache) 存多久(保留期) 存哪里(区域、加密
上下文工程 · 19 · 多语言与非英语任务适配
0. 跨语言不是简单"翻译" 以为多语言 agent = 把 prompt 翻成各语言,是浅薄的理解。实际涉及: Token 经济学差异:中文每字 ≈ 1.5-2 token,英文每词 ≈ 1.3 t
上下文工程 · 18 · Agent 蒸馏与上下文蒸馏
0. 两种蒸馏 类型 输入 输出 目标 模型蒸馏 大模型的 (input, output) 对 小模型微调 小模型在该任务上表现接近大模型 上下文蒸馏 长 prompt + 行为示例 短 prompt
上下文工程 · 17 · 超大 Context 的边际成本
0. 1M context 不是免费午餐 很多人误以为:窗口从 200k 涨到 1M,就可以"什么都塞进去"。实际不是。 超大 context 带来三个新问题: 价格非线性:1M 模式单 token
上下文工程 · 16 · Extended Thinking 模式与 thinking 块
0. extended thinking 是什么 普通推理: extended thinking: 模型先吐一段"思考过程"(包括分析、计划、自我质疑),再吐最终回复。thinking 块作为独立 c
上下文工程 · 14 · 会话接力与长任务接棒
0. 三种"会话边界" 每种边界都让"内存中的对话状态"消失。但任务可能还没完。从下次会话视角看:一切要从"持久化遗产"开始。 持久化遗产是什么?回顾前面几篇: Memory(02、04 篇) Pla
上下文工程 · 13 · 可观测性与调试
0. 调试 agent 的特殊难度 调试普通软件:日志、断点、单步、重放。 调试 agent: 概率性:同样输入,输出可能不同 不可复现:重跑可能命中不同的 cache、压缩可能不同 黑盒:模型为什么
上下文工程 · 12 · 多模态上下文
0. 多模态进入 agent 上下文的三条路径 每条路径在 API 层都表现为 message 里的 image 类型 content block: 或 URL 引用模式: 但每张图都不是"一个 to
上下文工程 · 11 · Streaming、中断与部分状态
0. 三种"半完成" 任何一种状态被打断,都可能让上下文留下不一致的痕迹。设计良好的 harness 必须把每种状态的"安全中断点"想清楚。 1. Streaming 输出的本质 Anthropic
上下文工程 · 10 · 错误恢复与上下文修复
0. 错误的两种性质 agent 系统里的错误分两类,处理思路完全不同: 类型 例子 处理方向 预期内失败 工具返回 stderr、文件不存在、命令 exit 非 0 视为信息,让 LLM 决策下一步
上下文工程 · 09 · CLAUDE.md 与项目级配置
0. 三个层次的项目级上下文 我(Claude Code)在每个项目里有三层项目级输入: 第 1 层是自然语言指令,进入 prompt;第 2 层是结构化配置,由 harness 解析;第 3 层是文
上下文工程 · 08 · 工具描述本身就是上下文
0. 一个反直觉的事实 我(Claude Code)的 System Prompt 大约 8k token。我的 17 个工具 schema 加起来大约 12k token。 工具 schema 占我
上下文工程 · 07 · 压缩与拼接的具体算法
0. 两套算法的关系 拼接是确定性的(输入相同 → 输出相同);压缩是有损的(不同时机可能压不同段,调用 LLM 生成摘要也不一定收敛到同样文本)。两者必须在同一轮内串行完成。 1. 数据模型 先定义
上下文工程 · 06 · 知识截止与时间感知
0. 时间是 agent 的盲点 LLM 本身没有时间感。它的"世界观"冻结在训练数据截止日(我的是 2026 年 1 月)。但 agent 跑在真实时间里,会遇到: 用户说 "明天前完成" → 哪天
上下文工程 · 05 · Hooks 与外部信号注入
0. Hooks 是什么、不是什么 是什么 不是什么 用户在 settings.json 配置的 shell 命令 我能写入的扩展点 在特定事件(PreToolUse、PostToolUse 等)触发
上下文工程 · 04 · Plan Mode 与 Todo 的状态机
0. 三个时间尺度 我(Claude Code)需要在三个时间尺度上管理状态: 每个尺度有专门的工具: 尺度 工具 形式 跨会话 MEMORY.md + 各类 memory 文件 文件系统 会话内任务
上下文工程 · 03 · 子智能体的上下文隔离与 Brief 工程
0. 为什么需要子智能体 单个 agent 的上下文是一条线性流。它有三个固有问题: 容量上限:即使 1M token,长任务仍会触顶 污染传播:早期工具结果污染后续推理,没法"擦除" 关注点纠缠:探
下一页