【大模型基础设施工程】25:大模型基础设施未来

0 阅读38分钟

写在最前

这是本系列的第 25 篇,也是收官篇。

前 24 篇我们从 GPU 体系结构、CUDA 生态、互联网络讲到训练并行、MoE、RLHF;从推理引擎、PagedAttention、vLLM/SGLang 讲到量化、推测解码、长上下文;从 RAG、向量库、Agent 讲到网关、观测、成本与合规。整整六个大部分,把一个大模型基础设施工程师在 2026 年上半年需要掌握的知识骨架铺了一遍。

但基础设施这件事永远没有"学完"的一刻。2022 年 11 月 ChatGPT 发布时,我们还在讨论"Transformer 推理能不能 batch";两年半后,我们在讨论"推理时 Scaling 应该用几棵树""国产千卡集群跑 DeepSeek-V3 的 MFU 能到多少""Blackwell 的 FP4 实战能省多少成本"。下一次大的变盘不会让我们等太久。

这一篇不讲具体技术实现,而是从一位在工程一线的视角,把未来 3–5 年可见的演进方向、工程师的成长路径、值得长期追的资源都梳理一遍,给读者一张"接下来往哪走"的路线图。

全文按"先复盘四年拐点 → 八条趋势 → 工程师路径 → 资源 → 系列索引 → 案例 → 劝退劝进 → 结语"的顺序展开。每一条趋势都尽量给出对基础设施栈的具体影响可操作的工程建议,避免"预测"变成"猜谜"。你可以选择顺读,也可以挑自己最关心的趋势跳读——但十二节的"系列索引"建议留到最后,那是系列的完整目录,回看全景时最有用。

一、回顾:2022–2026 四年关键拐点

先把过去四年的时间轴钉在一张表上,每一个拐点都对应基础设施栈一次大的"翻篇"。

时间事件基础设施层面的影响
2022.11ChatGPT 发布推理服务化成为新学科;GPU 价格飙升
2023.02LLaMA 泄露开源生态起点;消费级 GPU 跑大模型成为可能
2023.06vLLM / PagedAttention 论文推理吞吐一夜 10× 提升
2023.09FlashAttention-2 / GPTQ / AWQAttention 与量化进入工程常态
2024.02Sora 发布视频生成成为"下一个 ChatGPT"预期
2024.05GPT-4o / Llama-3 / DeepSeek-V2多模态端到端 + MoE 开源重塑训练范式
2024.09o1 预览推理时 Scaling 登上舞台
2024.12DeepSeek-V3 / Gemini 2.05M 美金训 670B MoE;推理成本再降 10×
2025.01DeepSeek-R1 / Blackwell B200 量产开源推理模型追平 o1;FP4 成为新基准
2025.05Qwen3 / Claude 4 / Grok 3多供应商并举;Agent 能力进入主流
2025.09GPT-5 / Gemini 3推理预算成为一级超参
2026.Q1Rubin R100 / MI400 样机下一代训练卡定型

从基础设施栈的角度看,这四年做对了三件事:

  1. 把"推理"从训练的附属品,抬成了独立学科。 PagedAttention、Continuous Batching、Speculative Decoding、Disaggregated Prefill/Decode 都是 2023 之后才系统化的。
  2. 把"训练万卡"从 Google/OpenAI 的专利,变成了任何一家认真做模型的公司的基本功。 Megatron-LM、DeepSpeed、以 FSDP 为核心的开源栈、加上国产千卡/万卡集群的量产,让 100B+ 模型训练进入"有钱就能做"的阶段。
  3. 把"成本"从 CFO 的烦恼,变成了工程师的 KPI。 单位 token 成本每年 10× 下降,这个数字的背后全是系统工程师、Kernel 工程师、量化工程师的肉搏。

接下来 3–5 年的趋势,延续着这三条线索,但在每一条上都会出现新的分叉。

二、趋势一:推理时 Scaling(Test-time Compute)

2.0 一张图概览

2026→2030 路线图概览转存失败,建议直接上传图片文件

2.1 范式固化

2024 年 9 月 o1 出现之前,业界还在争论"Scaling Law 是不是到头了"。o1 给出的答案是:预训练的 Scaling 也许放缓了,但推理时计算这条轴刚刚开始。2025 年 DeepSeek-R1、Qwen QwQ、Kimi K1.5、Gemini 2.5 Thinking、Claude 4 Thinking 全面跟进,这条范式已经固化。

典型推理时 Scaling 有三类:

  • 单链长推理(Long CoT):在回答前生成几千到几万 token 的思考链。o1/R1 路线。
  • 多分支采样 + 选择(Best-of-N / MCTS):并行跑 N 条推理路径,由奖励模型或多数投票选最优。
  • 过程奖励模型(PRM)引导的树搜索:在每一步用 PRM 打分,剪掉差分支,保留好分支。

2.2 对基础设施的新要求

对推理引擎来说,这三类都指向同一件事:一次"请求"的算力消耗不再可预估。一个数学题可能 500 token 出答案,也可能 5 万 token 思考后给答案;一个 Agent 任务可能只调一次模型,也可能在树搜索里调 200 次。

这带来四个基础设施层面的挑战:

  1. KV Cache 压力剧增。Long CoT 一条 32K–128K 是常态,单条请求的 KV 占用可能比以前一整个 batch 还多。长上下文引擎(16 篇讲过的 PagedAttention + Prefix Cache + Disaggregation)从"可选优化"变成"必选项"。
  2. Scheduler 要理解"推理预算"。用户可以指定 reasoning_effort=low|medium|high,或者 max_thinking_tokens=8192。网关和引擎都要把这个作为一等参数,用于配额、计费、SLO。
  3. 多分支并行需要引擎原生支持。SGLang 的 fork / RadixAttention、vLLM 的 Prefix Cache、Outlines 的受约束采样,这些组合在一起才能让 Best-of-N 和 MCTS 不线性爆炸成本。
  4. PRM / Verifier 成为第二个在线模型。除了主模型,你还要部署一个小一些的 Reward/Verifier 模型,两者异构共存,还要低延迟通信。典型部署会把 Verifier 放到同集群的小卡(L20、4090、910B)上。

伪代码上,一次 Best-of-N + PRM 的推理大致长这样:

async def reason_with_budget(prompt: str, budget: int = 8):
    shared = await llm.prefill(prompt)          # 前缀共享
    branches = await llm.sample(shared, n=budget, max_tokens=4096)
    scores = await prm.score_batch(prompt, branches)
    best = branches[int(np.argmax(scores))]
    return best

关键词是 shared prefixbatch samplingPRM 并行评分。三件事都要引擎原生支持,否则成本会线性爆炸。

2.4 一个最小可运行示例

SGLang 原生支持 fork,做并行分支非常自然:

import sglang as sgl

@sgl.function
def reason_multi(s, question, n=5):
    s += "Question: " + question + "\n"
    forks = s.fork(n)
    for i, f in enumerate(forks):
        f += f"\n[Attempt {i}]\n"
        f += sgl.gen("answer", max_tokens=2048, temperature=0.8)
    forks.join()
    s += sgl.gen("final", max_tokens=512,
                 prompt="Pick the best answer from above:\n" +
                        "\n".join(f["answer"] for f in forks))

配合 RadixAttention,共享前缀的 KV 只计算一次,N 条分支的实际成本约为 prefix_cost + N × branch_cost,而不是 N × (prefix_cost + branch_cost)——这一点优化对 Best-of-N 至关重要。

2.5 经验数字

从 2025 年多家厂商的公开/内部数据,可以给一组粗略经验(仅供量级参考):

推理模式平均输出 token相对基线成本质量提升(数学/代码基准)
普通 CoT500+0%
Long CoT(o1-mini 档)3000–8000+15–25 分
Best-of-8500 × 8~6×+8–15 分
MCTS(深度 5×宽度 4)~1000015×+20–30 分
Long CoT + Best-of-420000+30×+25–40 分

成本翻 10–30 倍换来质量提升 20–40 分,这就是"推理预算"这个一级超参背后的 trade-off。在生产里通常做成:免费版走普通 CoT,付费版走 Long CoT,企业版按需开 MCTS。

2.6 工程影响

  • 计费模型要改:从"按 token 收费"过渡到"按 token + 思考预算"双轴。
  • SLO 定义要改:TTFT 不再是核心指标,TTFA(Time To First Answer) 成为新指标,即"用户从发送到看到最终答案"的墙钟时间。
  • 监控维度要改:推理链长度分布、分支选中率、Verifier 命中率都要进 23 篇讲的可观测栈。
  • 配额要带维度:tenant × reasoning_effort 双维度配额,防止单租户开 high 把集群打爆。

三、趋势二:世界模型与视频生成

3.1 从 LLM 到 World Model

2024 年 Sora 让视频生成进入"演示级",2025 年 Veo 3、Kling 2、Vidu Q1、可灵、Pika 进入"可商用级",2026 年的关键词是 世界模型(World Model):不只是生成视频,而是生成"可交互、可预测物理、可被 Agent 调用"的 4D 世界。代表作:

  • Genie 2 / Genie 3:Google DeepMind,基于图像和动作生成可玩世界。
  • NVIDIA Cosmos:定位为机器人基础模型的"世界模型平台"。
  • World Labs / Decart:李飞飞等推动的 3D 世界生成。
  • Sora 2 / Veo 3:可控镜头、物理一致性大幅提升。

3.2 技术栈

主流视频/世界模型走 DiT(Diffusion Transformer)+ 3D VAE + Rectified Flow 路线:

  1. 3D VAE:把 H×W×T 的原始视频压到 h×w×t 的 latent(压缩比 8×8×4 或 16×16×8)。
  2. Patch 化 + 位置编码:latent 切 patch,加 3D RoPE 或 NaViT 式变长编码。
  3. DiT 主干:纯 Transformer,条件通过 AdaLN 或 cross-attention 注入。
  4. Flow Matching / Rectified Flow 训练:比 DDPM 更稳定、步数更少。

3.3 成本量级

以一个"类 Sora 1"的 5B DiT 为例,给一个粗略的成本口径(只做量级参考):

阶段数据量计算量H100-hour美元(按 2026 云价 1.5 USD/H100h)
预训练~100M clip × 5s × 24fps~1e23 FLOPs~50 万~75 万
微调~1M clip 精标~5e21~2.5 万~4 万
单条 5s 720p 推理-~1e15~0.02~0.03

这意味着:

  • 训练门槛:单次训练不到百万美金级别,比 LLM 预训练已经便宜很多,但数据成本(版权、标注)远超算力。
  • 推理门槛:一条 5s 视频几分钱,但用户期望是"即时"——这对 DiT 的步数、KV/Feature Cache、并行采样提出了和 LLM 完全不同的挑战。
  • 长视频(>1 分钟)仍是瓶颈,问题在于注意力的 O(N²) 和 VAE 的重建误差累积,这正是下一个 FlashAttention/PagedAttention 级别的突破点

3.5 视频推理的新瓶颈

LLM 推理的三大瓶颈(KV、显存带宽、通信)在视频世界里换了名字:

  • Feature Cache(相当于 KV):DiT 每步的中间激活可以跨步共享,TeaCache、DeepCache、Delta-DiT 等方案在 2025 年快速工程化,单卡推理加速 2–4×。
  • 步数压缩:Rectified Flow、Consistency Model、LCM、DMD2 把采样步数从 50+ 压到 2–8 步,成本直接砍 10×。
  • 分辨率金字塔:先低分生成结构,再高分 refine,避免一开始就在 1080p 上跑全步数。

一个典型 720p/5s 视频生成的引擎层优化收益(以 5B DiT 为例):

优化延迟显存备注
朴素 DDPM 50 步90s80GBbaseline
Flow Matching + 25 步45s80GB-50% 延迟
+ TeaCache28s80GBfeature 复用
+ FP8 权重25s42GB能上单张 H100
+ TP214s2×22GB多卡可扩
+ 蒸馏到 4 步(DMD2)4s22GB质量略降

这组组合拳里,每一条都需要推理引擎原生支持——这就是 vLLM/SGLang 团队 2025 年底开始增加多模态/视频后端的原因。

3.4 机器人与具身

世界模型与机器人基础模型(Robotics Foundation Model)会合流:

  • Physical Intelligence π0 / π0.5
  • Google RT-2 / Gemini Robotics
  • Figure Helix
  • UniTree / 宇树科技 的端到端控制

这对基础设施意味着:推理要从云端下沉到边缘,延迟从 100ms 级压到 10ms 级,端侧跑世界模型而云端跑规划——这是端云协同下一个爆发点。

四、趋势三:Agentic OS / Agentic Infra

4.1 Agent 成为一等公民

过去我们把 LLM 当函数调用,把 Agent 当应用层。未来 3 年,Agent 将从应用层渗透到系统层,出现 Agentic OS

  • Anthropic Claude Code / OpenAI Codex / Cursor:编程 Agent 成为 IDE 替代。
  • Browser Use / OpenAI Operator / Anthropic Computer Use:Agent 直接操作浏览器和桌面。
  • Manus / Devin / Genspark:通用任务 Agent。
  • Microsoft Copilot+ PC / Apple Intelligence:OS 层集成。

这里面基础设施的关键词不是"Agent 框架",而是 Agent Runtime:一个能长时运行、有状态、有权限、可审计、可被多 Agent 共享的运行时。

4.2 MCP 生态固化

第 20 篇讲过 Model Context Protocol(MCP)。2025 下半年到 2026 上半年,MCP 从 Anthropic 一家推变成 OpenAI、Google、Microsoft 全都跟进,定位相当于 "Agent 时代的 LSP"。未来一两年几乎可以确定的事:

  • 每个主流 SaaS 都会出官方 MCP Server(GitHub、Slack、Notion、Jira、Salesforce、飞书、钉钉都已经有)。
  • MCP Gateway 会成为企业标配,负责鉴权、审计、限流——就是第 22 篇讲的 LLM Gateway 能力向工具层的延伸。
  • 出现 MCP 市场:像 App Store,但面向 Agent。

4.3 OS 级沙箱

Agent 能执行任意代码和点击任意按钮,安全模型必须重写。目前的工程实践:

  • E2B / Daytona / modal:云端 microVM(Firecracker),每会话一个。
  • Docker + gVisor / Kata Containers:中等隔离。
  • eBPF 策略:细粒度 syscall 限制,适合做"Agent Guardrails"。
  • 浏览器侧:Playwright / Chromium DevTools Protocol + 独立 Profile,限制网络域名与文件访问。

一个生产级 Agent 平台的隔离分层长这样:

┌─────────────────────────────────────────┐
│ 用户/租户隔离(namespace、quota)         │
├─────────────────────────────────────────┤
│ 会话级 microVM(Firecracker,<200ms 启动)│
├─────────────────────────────────────────┤
│ 进程级 seccomp + eBPF 策略               │
├─────────────────────────────────────────┤
│ 文件系统 overlayfs + 只读基础镜像         │
├─────────────────────────────────────────┤
│ 网络 egress 白名单 + TLS MITM 审计       │
└─────────────────────────────────────────┘

4.4 Agent Runtime 的技术栈

一个生产级 Agent Runtime 通常由以下几层组成:

  1. 会话存储:短期记忆放 Redis,长期记忆进向量库 / 图库,ckpt 走对象存储。LangGraph 的 checkpointer 抽象是一个不错的模板。
  2. 任务调度:长时任务通常跑几分钟到几小时,需要类似 Temporal / Dagster 的"可恢复工作流"而不是简单的 task queue。
  3. 工具执行器:MCP Server 池 + 沙箱池。MCP 侧重协议,沙箱侧重隔离。
  4. 观测与计费:每一次工具调用、每一次模型调用、每一次沙箱启动都要可审计、可计量。

一个最小的 Agent Runtime 接口长这样:

class AgentRuntime:
    async def create_session(self, user, policy) -> Session: ...
    async def step(self, session, input) -> Action: ...
    async def exec_tool(self, session, tool, args) -> ToolResult: ...
    async def checkpoint(self, session) -> bytes: ...
    async def restore(self, blob) -> Session: ...
    async def destroy(self, session) -> None: ...

把这个抽象画清楚了,上层框架(LangGraph / AutoGen / CrewAI / OpenAI Agents SDK)都只是不同风格的 DSL。基础设施工程师要盯住的是 Runtime,不是 DSL

五、趋势四:专用芯片与国产替代

5.1 NVIDIA:Rubin 路线

Blackwell(B100/B200/GB200)在 2025 年完成铺货,2026 年开始进入 Rubin 世代:

  • Rubin R100(2026):HBM4、NVLink6、更激进的 FP4/FP6。
  • Rubin Ultra(2027):多 die 封装进一步做大。
  • Rubin CPX(2026):专门针对"长上下文 prefill"优化的分体卡。

其中 Rubin CPX 值得特别关注:NVIDIA 第一次承认prefill 和 decode 应该用不同硬件,这和我们在第 12/21 篇讲的 Disaggregated Serving 是同一个故事,只是现在从软件走到了硬件。

5.2 AMD、Intel、专用 ASIC

  • AMD MI350 / MI400:CDNA4 架构,HBM 容量优势,ROCm 生态在 vLLM/SGLang 上已可用。
  • Intel Gaudi 3 / Falcon Shores:挣扎中,但价格是优势。
  • Groq:LPU,主打超低延迟 decode,2025 年开始有规模客户。
  • Cerebras:WSE-3 晶圆级,单芯片跑大模型,推理延迟优势明显。
  • SambaNova:RDU,企业私有部署场景。
  • Etched Sohu:Transformer-only ASIC,赌"Transformer 是未来 10 年唯一架构"。

专用 ASIC 的逻辑是:如果架构固定 5 年不变,ASIC 可以比 GPU 快 5–10×。这个赌局在 SSM/Mamba 成熟后会承压,但短期(2026–2027)Transformer 的地位稳固。

5.3 超大规模自研

  • Google TPU v7(Ironwood):2026 年主力,训练推理一体。
  • AWS Trainium 3 / Inferentia 3:Anthropic 绑定训练。
  • Apple M 系列 + ANE:端侧统一内存是杀手锏,macOS/iOS 上的本地推理默认走 ANE。
  • Microsoft Maia 2Meta MTIA v2:自用为主。

5.4 中国:国产替代的工程现状

出口管制持续收紧的背景下,国产替代不再是"口号",而是工程现实:

厂商旗舰卡对标工程现状(2026 Q1 口径)
华为昇腾910B / 910CA100 / H100DeepSeek、Qwen、盘古大规模跑通;CANN/MindSpore 生态成熟度提升
寒武纪思元 590A100推理为主;部分互联网客户量产
摩尔线程MTT S4000A100MUSA 生态;千卡集群样板落地
燧原云燧 i20 / L600L40S / A100推理为主;与百度/字节合作
壁仞BR100 系列H100 推理出口管制下回归国内市场
沐曦曦云 C500A100 / H100推理客户逐步扩大
海光深算 DCU Z100MI200ROCm 兼容路线

工程视角的几条经验:

  1. 训练端:昇腾 910B/C 是目前唯一能跑起万卡级训练的国产方案。DeepSeek-V3、Qwen 系列在昇腾集群上有正式验证。
  2. 推理端:百花齐放,场景化明显。90% 国产推理部署集中在 70B 以下 MoE / Dense,通过 AWQ/GPTQ 量化到 INT8 即可匹配 A100 FP16 的质量。
  3. 生态短板:CUDA 生态的 10 年积累不是一两代硬件能补齐的。工程师最大的痛点不是算力,而是"同一份代码跑两套卡"——未来 3 年围绕 Triton 国产后端、PyTorch 2.x inductor 多后端、vLLM/SGLang 的国产化 backend 会有大量工程工作。
  4. 组网和调度:国产方案的 NVLink 等价物(HCCS、MetaLink、灵汐互联)带宽和拓扑都在快速收敛到 NVLink/NVSwitch 可比水平,真正的差距在软件栈稳定性。

5.5 选卡决策矩阵

一张 2026 年的"选卡建议表",供工程团队做采购时做参考——不是权威榜单,只是从基础设施工程视角的经验归纳:

场景首选次选备注
200B+ 预训练H200 / B200 / Rubin昇腾 910C(国内)NVLink 带宽是决定因素
70B MoE 训练H100 80G910B、MI325XFP8 支持是加分项
70B MoE 推理(高 QPS)H100 / B200910CPagedAttention 原生支持
7–13B 推理(低成本)L40S / 4090 / A10MTT S4000、沐曦曦云显存 ≥ 48G 才能 batch 大
长上下文 prefillRubin CPX / H200MI325X显存容量主导
Edge 推理Jetson Orin / Apple Silicon手机 NPU端侧生态优先
专用 Transformer 极致延迟Groq、Etched SohuCerebras架构锁定风险

决策的一个简化框架:

  1. 先问是训练还是推理。训练几乎只能 NVIDIA + 昇腾二选一;推理选择多。
  2. 再问是 prefill 还是 decode 瓶颈。Prefill 拼算力,decode 拼显存带宽。
  3. 最后算两年 TCO。按 2 年折旧 + 电费 + 运维人力一起算,很多便宜卡算下来并不便宜。

5.6 国产适配的几个实操点

真正把一个模型"搬上国产卡"的时候,绕不开的工程点:

  1. 算子覆盖:先用 torch._dynamo / torch.export 打一份完整算子清单,对照厂家 SDK 的算子列表查漏;缺的算子要么 fallback CPU,要么手写。
  2. 通信原语:NCCL 的 all_reduce / all_gather / reduce_scatter 需要对应到 HCCL/MCCL 等国产通信库,拓扑适配常踩坑。
  3. 精度对齐:FP16/BF16 在不同硬件上精度模型不同,特别是 softmax、layernorm 这些敏感算子,一个集群训练几天后 loss 曲线抖动,80% 是精度问题。
  4. 调度器:千卡级国产集群常缺成熟的调度器(K8s+Volcano、PAI、Slurm 都有短板),实际落地时自研补齐的情况很多。

六、趋势五:架构创新

6.1 SSM / Mamba / RWKV 的持续冲击

Transformer 在 2017 年发表,到 2026 年已经 9 年"不倒翁"。挑战者一直在排队:

  • Mamba / Mamba-2:状态空间模型(SSM),推理 O(N) 复杂度。
  • RWKV v7:彭博团队持续迭代,开源社区活跃。
  • xLSTM:Sepp Hochreiter(LSTM 作者)的新工作。
  • RetNet:Microsoft,推理阶段 recurrent。

纯 SSM 仍然在"能否追上 Transformer 质量"上有争议,但Hybrid 架构已经被证明可行:

  • Jamba(AI21):Mamba + Transformer + MoE。
  • Zamba / Zamba2(Zyphra):SSM 主干 + Shared Attention。
  • Hymba(NVIDIA):SSM + Attention 双头并行。
  • Samba(Microsoft):SSM 与 SWA 交替。

6.2 Diffusion LLM

2025 年另一个有趣信号是 Diffusion LLM

  • LLaDA(人大高瓴):Masked Diffusion 路线的文本模型,8B 级别已接近同规模 AR 模型。
  • SEDD:Score-based Discrete Diffusion。
  • Mercury(Inception Labs,2025):商用 Diffusion LLM,生成速度比 AR 快 5–10×。

Diffusion LLM 在推理基础设施上意味着另一种范式:并行生成而不是顺序生成,KV Cache 可能不再必要,取而代之的是多步"去噪"。这会让第 12–15 篇讲的 PagedAttention/Speculative 那一整套优化需要重新设计。如果 Diffusion LLM 真的成立,现有推理引擎会有一次大重写。

6.3 长上下文的架构内解

回到第 16 篇讨论过的长上下文:

  • Infini-attention(Google):压缩式长记忆。
  • Test-time Training(TTT):在推理时微调隐状态。
  • Titans(Google):显式长期记忆模块。
  • Gemini 1.5 Pro / 2.5 Pro:千万级 token 上下文的工业化。

趋势:"注意力 + KV Cache 线性扩大"的老路走不动了,未来 2–3 年会看到架构内的长记忆方案成为主流,基础设施的焦点会从"把 KV Cache 压缩好"转到"把长期状态管理好"。

6.4 对基础设施的连锁反应

一张"架构假设 vs 基础设施组件"的依赖表,可以提前识别哪些栈会被影响:

架构假设若被打破,受影响的组件
Attention 是主力算子FlashAttention 系列、Etched Sohu 这类 ASIC
KV Cache 是推理核心状态PagedAttention、Prefix Cache、Disaggregation
顺序生成 / 自回归Continuous Batching、推测解码、MTP
全局 softmax 依赖混合精度策略、在线 softmax kernel

例如 Diffusion LLM 如果胜出,前三行全部被颠覆——也就是说 vLLM/SGLang 里 70% 以上的核心代码会需要重写。基础设施工程师的价值就在于能在这种范式切换来临前做好"可插拔化"设计,让引擎不至于被一条架构线绑死。

6.5 短期下注建议

给工程团队的一个务实建议:

  • **2026:**仍然押 Transformer + MoE。Mamba/SSM/Diffusion LLM 值得跟进但不投生产。
  • **2027:**关注 Hybrid MoE+Mamba 在 200B+ 尺度的真实效果;若追平 Dense Attention,准备引擎层的 SSM kernel。
  • **2028:**若某一条非 Transformer 路线在评测 + 成本 + 生态上全面碾压,用 6 个月重写引擎。

不要在风向不明时押死一条架构,但要把引擎设计成可换主干的。

七、趋势六:小模型与端侧

7.1 小模型的崛起

2024–2025 年最被低估的趋势是小模型质量的飞跃

模型参数2026 Q1 水平
Phi-4 / Phi-57–14B逼近 GPT-4 早期版本
Gemma 32–27BGoogle 开源旗舰
Qwen3-1.8B / 4B1.8–4B中文端侧首选
MiniCPM 42–8B端侧效率之王
Llama 3.2 1B/3B1–3B移动端主力
SmolLM 31–3BHugging Face 社区旗舰

"7B 追平两年前 GPT-3.5,1.5B 追平两年前 GPT-3" 正在变成新的常识。这改变了"哪一层跑什么模型"的默认答案。

7.2 端侧推理栈

端侧不是一个新话题,但 2026 年终于落地成熟:

  • Ollama:桌面 Mac/Linux/Win,默认选项。
  • llama.cpp / gguf:一切端侧推理的基石,CPU/Metal/Vulkan/CUDA 全覆盖。
  • MLX(Apple):Apple Silicon 原生,M 系列 + ANE 最优路径。
  • ExecuTorch(PyTorch / Meta):统一的端侧导出+运行时。
  • TensorFlow Lite / LiteRT / MediaPipe(Google):Android 主力。
  • mnn-llm(阿里):国内端侧部署成熟方案。
  • MLC LLM:跨平台 WebGPU/Metal/Vulkan 编译。

7.3 手机 NPU

  • 高通骁龙 8 Gen 4 / 8 Elite:集成 Hexagon NPU,端侧 7B 已可实时。
  • Apple Neural Engine:M/A 芯片统一架构,Apple Intelligence 默认路径。
  • 联发科天玑 9400:APU 性能提升明显。
  • 华为麒麟 9020 / 昇腾 NPU:盘古端侧版本落地手机。
  • 三星 Exynos / Google Tensor G4:追赶中。

7.4 端云协同

理想架构:

┌──────────────────────────────────────────┐
│           用户意图(语音/文本/视觉)       │
└───────────────────────┬──────────────────┘
                        ▼
         ┌────────────── 端侧小模型 ─────────────┐
         │ - 意图分类、隐私敏感任务              │
         │ - 3B 以下,ANE/NPU,<200ms            │
         └─────────────┬────────────────────────┘
                       │ 需要大能力时
                       ▼
         ┌────────────── 云端大模型 ─────────────┐
         │ - 复杂推理、工具调用、长上下文        │
         │ - 70B+ MoE,H100/Rubin,流式          │
         └───────────────────────────────────────┘

这里基础设施的机会在:端云一致的模型家族(同训练方案下的 1B/3B/8B/70B 一起出)、端云会话状态同步(KV Cache 的加密上传与对齐)、端侧监控(如何观测不在你机房的推理)。

八、趋势七:成本腰斩定律

8.1 10× / 年

2023 年底 GPT-4 大约 30 USD / 1M input tokens;2026 年初同等质量的开源模型(DeepSeek-V3、Qwen3-Max、Llama 4)以 0.1–0.3 USD / 1M input tokens 提供,两年 100× 降价,年化约 10×。

这个 10× 不是单一因素,而是四股力量叠加:

  1. 硬件:A100 → H100 → B200 → Rubin,每代大约 2–3× 性价比提升。
  2. 量化:FP16 → FP8 → FP4,每一跳 2×。
  3. 引擎:vLLM/SGLang 相比朴素 HF Transformers 的吞吐 5–20×。
  4. 模型架构:MoE、稀疏激活、共享 KV 带来的等效算力下降 2–5×。

简单相乘就是 40–200×,符合观测到的 ~100×/2 年。这个趋势至少还能延续 2–3 年,之后会进入"硬件工艺逼近物理极限、量化已到 INT2/三元、架构稳定"的收敛期。

8.2 对上层的冲击

  • 免费 tier 常态化:ChatGPT Free、Gemini Free、豆包、文心免费版会把基础能力彻底白菜化。商业模型从 "按 token 卖" 转向 "按 Agent/结果卖"。
  • 自建 vs 调 API 的盈亏点在漂移:2024 年"日耗 >5 万美元自建划算",2026 年可能要到 50 万美元。第 24 篇讲过这个计算。
  • "便宜的大模型"取代"好用的小模型"的场景在扩大:以前为省钱用 7B,现在可能直接用 70B MoE 的 API,因为已经足够便宜。

8.3 商业模式新形态

  • 按 Agent 任务定价:Devin 等 Agent 按"成功完成一个 PR"收费。
  • 按行业结果定价:法律 AI 按"一份合同审阅",医疗 AI 按"一次报告"。
  • Token 订阅制:ChatGPT Pro、Claude Max、Grok Heavy 这些固定月费无限用,背后是"推理成本已经足够便宜"。

8.4 一张"成本曲线"的直观图

一张"成本曲线"直观图转存失败,建议直接上传图片文件

8.5 工程 checklist:当成本再腰斩时你要做什么

  • 重新估 TCO:自建 vs API 的盈亏线是否漂移?
  • 重审缓存:API 便宜到某个阈值后,语义缓存的"保命作用"变成"边际作用"。
  • 重做配额:免费 tier 能给到多宽?竞争对手给到什么水平?
  • 重画数据回流:成本低意味着可以打开更多"带日志的蒸馏采样",让自家模型反过来吃 API 的输出(注意合规)。

九、趋势八:合规与安全成为一级需求

9.1 监管落地

  • EU AI Act:2024 年生效,2026 年 8 月高风险 AI 义务全面适用。基础模型提供者要披露训练数据、算力、能耗。
  • 中国《生成式人工智能服务管理暂行办法》:2023 年已施行,备案 + 安全评估常态化;2025 年后评测与算法备案扩展到 Agent、向量库、数据集。
  • 美国:行政令反复,但州级立法(加州 SB 53 等)持续收紧。
  • 日本、韩国、英国、新加坡:各自在制定轻量框架。

工程上要落地的事:

  • 训练数据血缘:每份数据哪来的、是否合规,需要能审计到任意一个 checkpoint。
  • 模型卡 + 系统卡:不是"交差文档",是监管必需品。
  • 内容水印:C2PA、SynthID 这类标准会成为合规默认项。

9.2 AI 审计、红队、可解释

  • 审计:第三方对大模型的安全性、数据合规、偏见进行评估;国内由信通院、公安三所等执行,国际上 NIST AI RMF、ISO/IEC 42001 是主要框架。
  • 红队:Anthropic、OpenAI、Google 的红队已经工业化;国内互联网公司也在组建。红队的基础设施包括攻击 prompt 库、自动化攻击 Agent、评估 harness、回归测试
  • 可解释:Anthropic 的 Circuits、OpenAI 的 Sparse Autoencoder、Neel Nanda 的机理可解释性研究,2026 年会从"学术"走到"工程"——审计团队需要这些工具证明模型没有偏见。

9.3 基础设施视角的整合

第 24 篇已经深入讲过合规+安全。这里补充一个趋势性的判断:未来 2 年,合规与安全会从"项目后期补贴"变成"项目初期就要布好的底座"。具体落位到栈:

  • 数据层:数据血缘 + 水印注入。
  • 训练层:训练可追溯 + 差分隐私选项。
  • 推理层:Prompt/Output 审计日志 + 内容过滤 + 水印输出。

9.4 合规栈的参考架构

一张"合规友好"的基础设施栈草图,可以作为 2026–2028 年新建系统的参考:

┌─────────────────────────────────────────────────────────┐
│  模型注册中心(Model Registry + Model Card + 系统卡)      │
│  - 训练数据血缘 hash                                      │
│  - 算力 / 能耗 / 碳排记录                                 │
│  - 评测与红队报告归档                                     │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  网关层(Gateway:路由 + 鉴权 + 审计)                     │
│  - 按地区路由(EU / CN / US / APAC)                      │
│  - Prompt/Output 全量结构化日志(含脱敏)                  │
│  - PII Detector / 内容过滤器                              │
│  - 水印注入(C2PA / SynthID)                             │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  推理引擎(vLLM / SGLang / 国产 backend)                 │
│  - 可关闭的调试日志                                        │
│  - KV 加密选项(敏感场景)                                 │
└──────────────────┬──────────────────────────────────────┘
                   ▼
┌─────────────────────────────────────────────────────────┐
│  审计 / 回归 / 红队流水线                                  │
│  - 每日 red-team harness 回放                             │
│  - 行为指标监控(越权、幻觉、偏见)                        │
│  - 事件响应 runbook                                       │
└─────────────────────────────────────────────────────────┘

这不是一个"新产品",而是把第 22(网关)、第 23(可观测)、第 24(合规安全)的能力按合规视角重新组织一遍——合规是一种视角,不是一个新模块

9.5 工程师日常会增加的工作

一些具体会落到工程师手里的事:

  • 每个新模型上线前,填模型卡 + 系统卡并过安全评审。
  • 每次 prompt 模板改动要做一遍红队回归(几百条对抗样本)。
  • 每次训练数据新增要更新血缘文档,必要时申请数据合规复核。
  • 给监管方留出"一键导出某租户最近 N 天全部 prompt/输出"的接口。
  • Agent 工具白名单化,默认拒绝,例外批准。

这些事如果初期不做,后期补的代价是 10×。

十、工程师路径

10.0 学习曲线与路径可视化

学习曲线与路径可视化转存失败,建议直接上传图片文件

10.1 四级能力图谱

级能力图谱转存失败,建议直接上传图片文件

10.2 入门(0 → 0.5 年)

最低目标是自己能从 0 到 1 跑一个可用的 LLM 应用

  • 先跑起来:用 Ollama / llama.cpp 在本地跑 Qwen3-4B / Llama-3.2-3B。
  • 再理解:读 Andrej Karpathy 的 nanoGPT,自己手写一个 GPT-2。
  • 然后推理:把 Qwen3-7B 放到一张 4090 上,用 vLLM 跑 OpenAI 兼容 API。
  • 最后 Agent:用 LangGraph 或 LlamaIndex 写一个"搜索 + 摘要"Agent,全链路接 LangSmith/Langfuse 看 trace。

核心心法:不要从论文开始,从一个能跑的项目开始。项目迭代两三轮后再回头读论文,理解会深得多。

10.3 中级(0.5 → 2 年)

目标是对推理引擎或训练框架的某一层形成肌肉记忆

  • 选一条线:推理(vLLM/SGLang)or 训练(Megatron-LM/DeepSpeed/torchtitan)or Agent(LangGraph/AutoGen/MetaGPT)。
  • 提一个 PR:往你选的开源项目提一个真实 PR,修个 bug 也行,加个 feature 也行。这是从用户到贡献者的分水岭。
  • 做一次量化:拿一个 70B MoE 模型(比如 Mixtral、Qwen3 MoE),跑一遍 AWQ 或 GPTQ,测质量和吞吐。
  • 做一次压测:搭一个 2 卡 A100/H100 推理服务,用 genai-perf 或自写脚本打到 OOM、打到延迟抖动,理解瓶颈在哪。

10.4 高级(2 → 5 年)

目标是能主导一个训练或推理的系统级决策

  • 能写算子:能用 Triton 写一个 FlashAttention v2 简化版、一个融合 GEMM。
  • 能调网络:NCCL 参数怎么调,P2P/TREE/RING 算法什么时候用哪个,能画出 NCCL trace。
  • 能设计调度:给定集群、模型矩阵、SLO,能出一份推理部署拓扑方案,含路由、缓存、容灾。
  • 能带新人:把前面这些沉淀成团队手册。

10.5 专家(5+ 年)

目标是跨维度

  • 算法维度:知道下一代模型要什么能力;
  • 系统维度:知道下一代硬件能给什么;
  • 产品维度:知道用户真正要为什么付费;
  • 组织维度:能带一个 10–50 人的团队。

这一层人的价值不是"代码写得多快",而是判断力——在硬件迭代、架构迭代、监管迭代三轴同时变化时,决定哪些事值得投入。

十一、推荐资源

以下是一份精挑的清单,所有链接都是经得起时间考验的。

11.1 必读论文

  • 系统 / 推理
    • FlashAttention / FlashAttention-2 / FlashAttention-3
    • PagedAttention(vLLM 原论文)
    • SGLang(RadixAttention)
    • TensorRT-LLM 技术报告
    • Megatron-LM 3D 并行、ZeRO-3、ZeRO-Infinity
    • DeepSpeed-Inference、DeepSpeed-FastGen、Splitwise(Prefill/Decode 分离)
    • Medusa / EAGLE / SpecDecoding 系列
  • 模型
    • LLaMA / LLaMA 2 / LLaMA 3 技术报告
    • DeepSeek-V2 / DeepSeek-V3 / DeepSeek-R1
    • Mixtral 8x7B / 8x22B
    • Qwen / Qwen2 / Qwen3 技术报告
    • GPT-4 Technical Report、o1 System Card、GPT-4o System Card
    • Gemini 1.5 / Gemini 2.5
    • Claude 3 / Claude 4 model card
  • 架构创新
    • Mamba / Mamba-2、RWKV v6/v7、Jamba
    • Infini-attention、Ring Attention
    • LLaDA、Mercury(Diffusion LLM)
  • 对齐
    • InstructGPT、Constitutional AI、DPO、RLAIF、PPO for LLM

11.2 课程

  • Stanford CS25: Transformers United(每年都更新,嘉宾全是一线作者)
  • UC Berkeley CS294-158 / Full Stack Deep Learning
  • MIT 6.S965 TinyML / 6.S191 Intro to Deep Learning
  • CMU 11-667 Large Language Models
  • Stanford CS336 Language Modeling from Scratch
  • 李宏毅 生成式 AI 课程(中文社区入门最友好)
  • 邱锡鹏《神经网络与深度学习》(中文教材首选)

11.3 开源项目

  • 推理:vllmsglangTensorRT-LLMlmdeployllama.cppmlc-llmexllamav2ktransformers
  • 训练:Megatron-LMDeepSpeedtorchtitanColossalAINemoOpenRLHFverl
  • 微调:axolotlLLaMA-Factoryunslothtrl
  • Agent:LangGraphLlamaIndexAutoGenOpenAI SwarmMetaGPTCrewAIAgno
  • 评估:lm-eval-harnessopencompassgenai-perf
  • 可观测:LangfuseArize PhoenixHeliconeLangSmith

11.4 长期值得追的博客 / 公众号

  • HuggingFace Blog(每周都有干货)
  • Lilian Weng(lilianweng.github.io,基础理论一绝)
  • Sebastian Raschka(magazine.sebastianraschka.com)
  • Chip Huyen(huyenchip.com,系统视角)
  • Simon Willison(simonwillison.net,应用视角)
  • 苏剑林 科学空间(kexue.fm,中文理论深度第一)
  • 张俊林(知乎,LLM 综述最勤奋作者之一)
  • 微信公众号:机器之心、新智元、量子位、AI 前线、AI 大模型实验室

11.5 社区

  • Twitter/X:关注一线作者本人(Tri Dao、Woosuk Kwon、Ying Sheng、Woosuk、Horace He、Sasha Rush、Sebastian Raschka)
  • 中文社区:Hugging Face 中文区、DataFun、Datawhale、魔搭 ModelScope 社区
  • 线下:CCF-ChinaSys、OSDI/SOSP/MLSys、BAAI 大会、世界人工智能大会 WAIC

十二、系列 25 篇索引

把整个系列按六个部分重梳一次,方便读者当目录用。

12.1 第一部分:硬件与互联(01–04)

12.2 第二部分:训练工程(05–10)

12.3 第三部分:推理引擎(11–16)

12.4 第四部分:RAG 与 Agent(17–20)

12.5 第五部分:服务化与运营(21–24)

12.6 第六部分:趋势(25)

十三、案例推演:2028 年的一天

为了让前面八条趋势更具象一些,给一个虚构但基于现有技术路线可推演的场景——2028 年春天,一家中等规模 SaaS 公司的一天

13.1 产品形态

这家公司叫"X 云文档",用户 500 万 MAU,核心产品是文档协作。2026 年时他们接了 GPT-4 API 做 "AI 助手",2028 年已经演化成:

  • 端侧 Copilot:用户电脑/手机上跑一个 3B MoE(Qwen4 家族),负责文本补全、语法检查、隐私敏感命令。
  • 云端 Agent:70B MoE + o 系列推理模型,负责跨文档总结、调用第三方工具(Salesforce、GitHub、飞书)、生成演示视频。
  • 视频生成副产品:用户输入大纲,系统生成 60 秒讲解视频(世界模型 + 虚拟讲师)。

13.2 基础设施拓扑

┌──────────────── 用户侧 ────────────────┐
│ Mac / iPhone / Android                  │
│   - 3B MoE,MLX / ExecuTorch            │
│   - 会话 KV 本地持久化(加密)            │
└───────────┬─────────────────────────────┘
            │ 加密会话同步
            ▼
┌──────────────── LLM 网关 ────────────────┐
│ Envoy + AI Gateway Mesh                  │
│   - 路由:端/云/哪家模型                  │
│   - 预算:按 tenant 级 reasoning_budget   │
│   - 合规:EU AI Act + 中国备案切换         │
└───────────┬─────────────────────────────┘
            ▼
┌──────────────── 推理集群(国内)──────────┐
│ 昇腾 910D + 国产 MTT S5000                │
│   - Prefill 池 / Decode 池分离            │
│   - DeepSeek-V5 / Qwen4-MoE               │
│   - 视频 DiT 集群(独立)                  │
└───────────┬─────────────────────────────┘
            ▼
┌──────────────── 推理集群(海外)──────────┐
│ Rubin R200 + MI450                        │
│   - Llama 5 / Claude 5 / GPT-6-open       │
│   - 同一套 vLLM/SGLang fork               │
└──────────────────────────────────────────┘

13.3 一个请求的生命周期

用户在 iPad 上说:"帮我把这季度的销售数据整理成一份 3 页 PPT,再生成一段 30 秒讲解视频,发给老板。"

  1. 端侧 3B 识别意图,拆解为 4 个子任务:查数据 → 写提纲 → 做 PPT → 生成视频。判断"都需要云",转发云端 Agent。
  2. LLM 网关 根据 tenant 策略,把子任务分发:
    • "查数据"调 Salesforce MCP Server;
    • "写提纲"路由到国内 Qwen4-MoE(数据不出境);
    • "做 PPT"调公司自研 PPT Agent;
    • "生成视频" 路由到视频 DiT 集群。
  3. 推理引擎 在 prefill 集群把用户的 30 万 token 历史文档塞进 KV Cache(前缀命中率 92%),decode 集群并发产出大纲(reasoning_effort=medium,5k 思考 token)。
  4. 视频 DiT 以提纲为条件生成 4 段 8 秒 clip,拼接为 32 秒,用户侧 Mac 做最后一公里的剪辑与字幕。
  5. 观测:Langfuse 记录 trace,成本 0.18 美元,TTFA 26 秒。
  6. 审计:合规网关把"涉及客户数据"部分标记留存 6 个月;视频打 C2PA + SynthID 水印。

13.4 工程师视角的启示

这套流程里,每一层都是前 24 篇讲过的东西:PagedAttention、Disaggregation、MoE、MCP、Gateway、观测、合规。未来不是把这些替换掉,而是把它们组合得更顺滑、更便宜、更安全

下一个十年的赢家,是能把"现有栈 × 新硬件 × 新架构"拼成一个可运营产品的团队——不是只会造锤子,也不是只会钉钉子,而是能持续根据任务换手里的工具。

十四、一些劝退与劝进

这部分写给考虑进入这个领域的同学,也写给在这个领域里有点迷茫的同事。

14.1 劝退:以下情况谨慎

  • "我想蹭 AI 红利赚快钱":基础设施层的红利窗口已经缩窄,容易被上下游挤压;想赚快钱不如去做应用层或做 Agent 产品。
  • "我不想碰底层,只想调 API":调 API 当然能做出好产品,但不算基础设施工程,职业路径在另一条线上。
  • "我想 6 个月速成":这个领域的复合度太高——算法、系统、硬件、产品——速成容易只会一层的八股,简历看着好看,上手就漏。
  • "我只想读论文":读论文是这行的入场券,但光读论文不写代码不部署产品,这里没有位置。

14.2 劝进:以下情况强烈推荐

  • 你对"让一个东西跑得更快"有执念:基础设施工程的底色就是 profiling。
  • 你不害怕跨层:愿意从 Python 一路调试到 CUDA kernel,再一路追到 NCCL 抓包。
  • 你能忍受"一周一变":新论文、新模型、新卡,周周都要学。
  • 你喜欢开源:这行的知识主要流通在 GitHub Issues、arXiv、Twitter 和几个 Slack/Discord 里,不是在教科书里。
  • 你想参与一件长期有意义的事:AI 基础设施不是一次性机会,是接下来 20 年计算范式的主战场。

14.3 三条个人建议

  1. 每年挑一件"硬一点"的事完成。比如:今年读完 vLLM 源码并提一个 PR;明年训一个 3B 从零;后年在国产卡上跑通一个 70B 推理。每一件事做完,你的能力边界都会被撑开一大圈。
  2. 动手比囤课有用。不要买 20 门课,买 2 门并做完 lab。
  3. 写出来。写代码、写博客、写 PR description。写作逼你把"我以为我懂"变成"我确实懂"。

十五、结语

写到这里,25 篇收尾。

四年前我们还在讨论"GPT-3 API 怎么接"。四年后我们在讨论"千卡集群 MFU 怎么从 45% 推到 55%""推理单位 token 成本怎么从 1 分钱砍到 1 厘"。再往后四年,我们大概率会在讨论一些今天还没有名字的东西——也许是"世界模型的 PagedAttention",也许是"Agent OS 的 cgroup v3",也许是"国产 Rubin 的 FP4 MFU"。

这个系列从第 01 篇开始,一直在重复一个动作:把一个看起来很大的话题,拆到能动手的粒度。GPU 不神秘,它就是 SM + HBM + NVLink 三样东西的组合;训练不神秘,它就是前向 + 反向 + 通信 + checkpoint 的循环;推理不神秘,它就是 prefill + decode + KV 管理 + 调度的流水线;Agent 不神秘,它就是 LLM + 工具 + 状态 + 控制流的状态机。所有"新概念",都是这些基本件的新组合。

15.1 三个不会变的判断

四年变化如此剧烈,还有什么是可以确定的?我赌三件事:

  1. 算力永远不够用。只要模型能变强,钱就会被投入进去,直到物理极限。所以"怎么把算力用好"永远是工程显学。
  2. 开源永远不会死。过去三年开源追上闭源的速度一次比一次快,工程师生态的赢家永远是开源。
  3. 中间层永远有机会。再强的模型也需要网关、可观测、缓存、调度、合规——这是基础设施工程师长期的根据地。

15.2 两件事不会变

无论名字怎么变,有两件事不会变:

  1. 基础设施没有终点。每一代硬件解决的是上一代算法的瓶颈,每一代算法提出的是下一代硬件的挑战。你永远可以比上一代的自己做得更便宜、更快、更稳、更安全 10×。
  2. 最值钱的能力永远是"把复杂问题拆到能动手的粒度"。不管是 Transformer 还是 Mamba,不管是 H100 还是 910C,不管是 Agent 还是 World Model,能把一个大问题拆成 profile → bottleneck → fix → measure → repeat 的人,永远稀缺。

15.3 一句送别

感谢一路读到这里的你。写 25 篇的过程,也是一次自己的复盘——每一篇都逼着我重新问自己"这件事我真的懂吗"。这种追问是基础设施工程师最好的习惯。

如果这个系列能让你在某一次 on-call、某一次选型会议、某一次架构评审里,多想了一步或多说了一句——那它就值得写。

祝你在下一代基础设施里,也能写出一行让自己得意的代码,也能在半夜三点被告警叫醒时,嘴角先骂一句然后自信地 kubectl logs

基础设施没有终点,只有比上一代便宜 10×。

系列完。

参考资料

  • OpenAI, "Learning to reason with LLMs"(o1 system card), 2024.
  • DeepSeek-AI, "DeepSeek-V3 Technical Report", 2024.
  • DeepSeek-AI, "DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via RL", 2025.
  • Kwon et al., "Efficient Memory Management for Large Language Model Serving with PagedAttention", SOSP 2023.
  • Zheng et al., "SGLang: Efficient Execution of Structured Language Model Programs", 2024.
  • Dao, "FlashAttention-2 / FlashAttention-3", 2023/2024.
  • Gu & Dao, "Mamba / Mamba-2", 2023/2024.
  • Lieber et al., "Jamba: A Hybrid Transformer-Mamba Language Model", 2024.
  • Nie et al., "LLaDA: Large Language Diffusion Model", 2025.
  • NVIDIA, "Blackwell / Rubin Architecture Whitepaper", 2024–2026.
  • EU, "AI Act", Regulation (EU) 2024/1689.
  • 国家网信办等, 《生成式人工智能服务管理暂行办法》, 2023.
  • Lilian Weng, "LLM Powered Autonomous Agents", 2023.
  • Chip Huyen, "AI Engineering", O'Reilly, 2024.

上一篇成本、合规与安全 下一篇返回系列首页