AI相关开发

AI相关开发

AI相关开发

xyh

等 2 人订阅共133篇文章创建于2026-04-30

大模型推理加速指南

目录一、推理性能基础二、性能瓶颈分析三、KV Cache 优化四、连续批处理（Continuous Batching）五、量化技术六、推测解码（Speculative Decoding）

1月前
72
点赞
评论

基于 MCP 协议的工具开发指南

目录一、MCP 协议简介二、核心架构三、协议消息四、Tools / Resources / Prompts 五、Python SDK 开发六、TypeScript SDK 开发七、传输层

1月前
50
点赞
评论

A2A 多智能体协作指南（Google Agent2Agent 协议）

目录一、A2A 协议概述二、核心概念三、协议规范四、Agent Card 五、消息与任务流六、Python SDK 实战七、TypeScript SDK 实战八、多智能体编排模式九、流

1月前
121
1
评论

上下文工程 · 20 · 隐私、合规与记忆的生命周期

0. 隐私是默认的工程约束，不是事后补丁很多 agent 团队把隐私当作"上线前补一下"的合规项。实际上隐私决策影响：存什么（Memory、日志、cache）存多久（保留期）存哪里（区域、加密

1月前
35
点赞
评论

上下文工程 · 19 · 多语言与非英语任务适配

0. 跨语言不是简单"翻译" 以为多语言 agent = 把 prompt 翻成各语言，是浅薄的理解。实际涉及： Token 经济学差异：中文每字 ≈ 1.5-2 token，英文每词 ≈ 1.3 t

1月前
39
点赞
评论

上下文工程 · 18 · Agent 蒸馏与上下文蒸馏

0. 两种蒸馏类型输入输出目标模型蒸馏大模型的 (input, output) 对小模型微调小模型在该任务上表现接近大模型上下文蒸馏长 prompt + 行为示例短 prompt

1月前
37
点赞
评论

上下文工程 · 17 · 超大 Context 的边际成本

0. 1M context 不是免费午餐很多人误以为：窗口从 200k 涨到 1M，就可以"什么都塞进去"。实际不是。超大 context 带来三个新问题：价格非线性：1M 模式单 token

1月前
40
点赞
评论

上下文工程 · 16 · Extended Thinking 模式与 thinking 块

0. extended thinking 是什么普通推理： extended thinking：模型先吐一段"思考过程"（包括分析、计划、自我质疑），再吐最终回复。thinking 块作为独立 c

1月前
44
点赞
评论

上下文工程 · 14 · 会话接力与长任务接棒

0. 三种"会话边界" 每种边界都让"内存中的对话状态"消失。但任务可能还没完。从下次会话视角看：一切要从"持久化遗产"开始。持久化遗产是什么？回顾前面几篇： Memory（02、04 篇） Pla

1月前
32
点赞
评论

上下文工程 · 13 · 可观测性与调试

0. 调试 agent 的特殊难度调试普通软件：日志、断点、单步、重放。调试 agent：概率性：同样输入，输出可能不同不可复现：重跑可能命中不同的 cache、压缩可能不同黑盒：模型为什么

1月前
36
1
评论

上下文工程 · 12 · 多模态上下文

0. 多模态进入 agent 上下文的三条路径每条路径在 API 层都表现为 message 里的 image 类型 content block：或 URL 引用模式：但每张图都不是"一个 to

1月前
45
点赞
评论

上下文工程 · 11 · Streaming、中断与部分状态

0. 三种"半完成" 任何一种状态被打断，都可能让上下文留下不一致的痕迹。设计良好的 harness 必须把每种状态的"安全中断点"想清楚。 1. Streaming 输出的本质 Anthropic

1月前
46
1
评论

上下文工程 · 10 · 错误恢复与上下文修复

0. 错误的两种性质 agent 系统里的错误分两类，处理思路完全不同：类型例子处理方向预期内失败工具返回 stderr、文件不存在、命令 exit 非 0 视为信息，让 LLM 决策下一步

1月前
32
点赞
评论

上下文工程 · 09 · CLAUDE.md 与项目级配置

0. 三个层次的项目级上下文我（Claude Code）在每个项目里有三层项目级输入：第 1 层是自然语言指令，进入 prompt；第 2 层是结构化配置，由 harness 解析；第 3 层是文

1月前
50
点赞
评论

上下文工程 · 08 · 工具描述本身就是上下文

0. 一个反直觉的事实我（Claude Code）的 System Prompt 大约 8k token。我的 17 个工具 schema 加起来大约 12k token。工具 schema 占我

1月前
44
点赞
评论

上下文工程 · 07 · 压缩与拼接的具体算法

0. 两套算法的关系拼接是确定性的（输入相同 → 输出相同）；压缩是有损的（不同时机可能压不同段，调用 LLM 生成摘要也不一定收敛到同样文本）。两者必须在同一轮内串行完成。 1. 数据模型先定义

1月前
28
点赞
评论

上下文工程 · 06 · 知识截止与时间感知

0. 时间是 agent 的盲点 LLM 本身没有时间感。它的"世界观"冻结在训练数据截止日（我的是 2026 年 1 月）。但 agent 跑在真实时间里，会遇到：用户说 "明天前完成" → 哪天

1月前
71
点赞
评论

上下文工程 · 05 · Hooks 与外部信号注入

0. Hooks 是什么、不是什么是什么不是什么用户在 settings.json 配置的 shell 命令我能写入的扩展点在特定事件（PreToolUse、PostToolUse 等）触发

1月前
42
点赞
评论

上下文工程 · 04 · Plan Mode 与 Todo 的状态机

0. 三个时间尺度我（Claude Code）需要在三个时间尺度上管理状态：每个尺度有专门的工具：尺度工具形式跨会话 MEMORY.md + 各类 memory 文件文件系统会话内任务

1月前
42
点赞
评论

上下文工程 · 03 · 子智能体的上下文隔离与 Brief 工程

0. 为什么需要子智能体单个 agent 的上下文是一条线性流。它有三个固有问题：容量上限：即使 1M token，长任务仍会触顶污染传播：早期工具结果污染后续推理，没法"擦除" 关注点纠缠：探

1月前
64
点赞
评论