首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
ltl
掘友等级
土法炼钢的浪
|
土法炼钢兴趣小组
https://quant67.com
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】25:大模型基础设施未来
写在最前 这是本系列的第 25 篇,也是收官篇。 前 24 篇我们从 GPU 体系结构、CUDA 生态、互联网络讲到训练并行、MoE、RLHF;从推理引擎、PagedAtt...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】二十四:成本、合规与安全
大模型基础设施走到量产阶段,"能跑"早已不是终点。真正决定一家公司能否把大模型长期跑下去的,是另外三件事: 成本——每一个 Token 背后都是电费、卡时、互联、人力; 合...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】23:LLM 可观测性
可观测性(Observability)在传统微服务里已经是老生常谈:Metrics、Logs、Traces 三件套,加一点 Profiling 就能覆盖 90% 的排障场景...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】22:大模型网关
一、为什么需要 LLM Gateway 上一篇 21:推理服务化 讲了单一模型从 vLLM/SGLang 到 K8s 的上线路径。但真实企业里,一个业务很少只用一个模型、一...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】21:推理服务化
一、为什么"引擎"不是"服务" 1.1 从 demo 到生产的 12 个坑 把 python -m vllm.entrypoints.openai.api_server 跑...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】20:工具调用与 MCP
一、从 Prompt 到 Function Calling:一次协议化的演进 1.1 "Act as" 时代的工具调用 在 ChatGPT 刚刚流行的 2023 年初,工具...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】19:Agent 框架工程
一、从 ReAct 到 Agentic Reasoning:五年范式演进 1.1 时间线 Agent 并不是 2024 年才出现的概念,但 LLM 让它第一次工程可行。把过...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】18:向量库与图 RAG
上一篇讲了 RAG 的端到端工程。这一篇把视角下沉到存储与检索层:向量索引算法怎么选、量化怎么压、产品生态怎么看,以及 2024—2026 年工业界最热的**图增强 RAG...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
"【大模型基础设施工程】17:RAG 工程全景
一、为什么需要 RAG 大语言模型(Large Language Model,LLM)本身存在几个结构性缺陷,这些缺陷不是"再训一版基座"就能彻底解决的: 幻觉(Hallu...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】16:长上下文工程
引言 2022 年 GPT-3.5 上下文 4K token,2024 年 Claude 3 做到 200K,Gemini 1.5 Pro 冲到 1M、实验版本 2M;20...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
16小时前
关注
【大模型基础设施工程】15:推测解码与 MTP
一、为什么需要推测解码 1.1 Decode 阶段的根本瓶颈 在 第 11 篇 与 第 12 篇 里我们反复强调:大模型推理的 Decode 阶段是**显存带宽受限(mem...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
1天前
关注
【大模型基础设施工程】15:推测解码与 MTP
一、为什么需要推测解码 1.1 Decode 阶段的根本瓶颈 在 第 11 篇 与 第 12 篇 里我们反复强调:大模型推理的 Decode 阶段是**显存带宽受限(mem...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
1天前
关注
【大模型基础设施工程】14:量化工程 —— INT8 / FP8 / FP4 / AWQ / GPTQ
量化是 2023 年以来 LLM 推理侧最显著的工程变量之一。一块 80 GB 的 H100 放不下 Llama-3-70B BF16(140 GB),但 FP8 只要 7...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
1天前
关注
【大模型基础设施工程】13:vLLM / SGLang / TensorRT-LLM / TGI 对比
上一篇 12:PagedAttention 与 Continuous Batching 从机制层讲清了现代推理引擎的两块基石。本篇把视角拉回产品层:当一家公司要把一个 70...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
1天前
关注
【大模型基础设施工程】12:PagedAttention 与 Continuous Batching
上一篇《推理引擎基础》把 Prefill / Decode、KV cache、吞吐/延迟三大指标梳理了一遍。但如果仅靠这些基本盘,LLM 服务大概只能跑出 HuggingF...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
2天前
关注
【大模型基础设施工程】11:推理引擎基础
训练把模型"炼"出来,推理把模型"用"出来。前者是离线任务、按天计量、看吞吐;后者是在线服务、按毫秒计量、看尾延迟。训练工程师可以容忍一次 checkpoint 恢复花半小...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
2天前
关注
【大模型基础设施工程】10:Checkpoint 与故障容忍
一、引子:万卡训练,为什么每天都在断 如果只看论文,LLM 预训练像是一段优雅的长跑:给定数据、给定超参、给定 N 天的时间,loss 曲线就会优雅地下降。但真正在万卡集群...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
2天前
关注
【大模型基础设施工程】09:RLHF 与对齐流水线
一、为什么需要对齐流水线 预训练出来的 base model 是一个"补全机":给它一段文本,它预测下一个 token。它不会主动回答问题、不会遵守安全边界、也不会区分"有...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
3天前
关注
【大模型基础设施工程】08:MoE 训练工程
2023 年之前,稠密(Dense)Transformer 几乎是 LLM 的代名词。2024 年之后,情况变了:Mixtral 8×7B 让开源社区第一次跑上"旗舰级 M...
0
评论
分享
ltl
土法炼钢的浪 @土法炼钢兴趣小组
·
3天前
关注
【大模型基础设施工程】07:Megatron-LM 与 DeepSpeed
上一篇我们系统梳理了 3D 并行的原理。到了 1B 参数以上的规模,训练团队通常不会从零实现这些并行策略,而是站在 Megatron-LM / Megatron-Core、...
0
评论
分享
下一页
个人成就
文章被点赞
266
文章被阅读
39,475
掘力值
1,665
关注了
13
关注者
62
收藏集
0
关注标签
29
加入于
2016-10-26