首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
ltl
掘友等级
土法炼钢的浪
|
土法炼钢兴趣小组
https://quant67.com
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
5
文章 5
沸点 0
赞
5
返回
|
搜索文章
最新
热门
【大模型基础设施工程】25:大模型基础设施未来
写在最前 这是本系列的第 25 篇,也是收官篇。 前 24 篇我们从 GPU 体系结构、CUDA 生态、互联网络讲到训练并行、MoE、RLHF;从推理引擎、PagedAttention、vLLM/SG
【大模型基础设施工程】二十四:成本、合规与安全
大模型基础设施走到量产阶段,"能跑"早已不是终点。真正决定一家公司能否把大模型长期跑下去的,是另外三件事: 成本——每一个 Token 背后都是电费、卡时、互联、人力; 合规——生成式 AI 在全球
【大模型基础设施工程】23:LLM 可观测性
可观测性(Observability)在传统微服务里已经是老生常谈:Metrics、Logs、Traces 三件套,加一点 Profiling 就能覆盖 90% 的排障场景。但把这套方法论直接搬到大模
【大模型基础设施工程】22:大模型网关
一、为什么需要 LLM Gateway 上一篇 21:推理服务化 讲了单一模型从 vLLM/SGLang 到 K8s 的上线路径。但真实企业里,一个业务很少只用一个模型、一个供应商: 研发一次调试用
【大模型基础设施工程】21:推理服务化
一、为什么"引擎"不是"服务" 1.1 从 demo 到生产的 12 个坑 把 python -m vllm.entrypoints.openai.api_server 跑起来,和把它变成公司级推理平
【大模型基础设施工程】20:工具调用与 MCP
一、从 Prompt 到 Function Calling:一次协议化的演进 1.1 "Act as" 时代的工具调用 在 ChatGPT 刚刚流行的 2023 年初,工具调用完全靠 Prompt 工
【大模型基础设施工程】19:Agent 框架工程
一、从 ReAct 到 Agentic Reasoning:五年范式演进 1.1 时间线 Agent 并不是 2024 年才出现的概念,但 LLM 让它第一次工程可行。把过去几年的关键节点串起来看:
【大模型基础设施工程】18:向量库与图 RAG
上一篇讲了 RAG 的端到端工程。这一篇把视角下沉到存储与检索层:向量索引算法怎么选、量化怎么压、产品生态怎么看,以及 2024—2026 年工业界最热的**图增强 RAG(GraphRAG)**怎么
"【大模型基础设施工程】17:RAG 工程全景
一、为什么需要 RAG 大语言模型(Large Language Model,LLM)本身存在几个结构性缺陷,这些缺陷不是"再训一版基座"就能彻底解决的: 幻觉(Hallucination):模型以概
【大模型基础设施工程】16:长上下文工程
引言 2022 年 GPT-3.5 上下文 4K token,2024 年 Claude 3 做到 200K,Gemini 1.5 Pro 冲到 1M、实验版本 2M;2025 年 GPT-4.1、K
下一页
个人成就
文章被点赞
266
文章被阅读
39,596
掘力值
1,788
关注了
13
关注者
62
收藏集
0
关注标签
29
加入于
2016-10-26