首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
深度学习
大魏分享
创建于2026-05-04
订阅专栏
致力于用真实实验数据解释深度学习核心技术。不写综述不搬论文,每篇文章都在真实环境上跑过,有数据有代码有结论。方向包括推理优化、模型微调、训练并行、量化精度、GPU 选型等。
暂无订阅
共4篇文章
创建于2026-05-04
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
KV Cache 深度解析:从零基础到生产选型,一篇讲透
从零开始讲 KV Cache 是什么、怎么算大小、四种压缩架构对比(GQA/MLA/Hybrid Mamba/Hybrid DeltaNet),到量化影响和 H100 实测验证,附 GPU 选型决策树。
LoRA 合并方式对推理质量的影响:fuse_lora vs set_adapters 实测对比
实测对比 diffusers 两种 LoRA 加载方式在 20B 参数 Diffusion 模型上的质量差异,fuse_lora 与离线合并像素级一致,set_adapters 下降 2-18%。
Benchmark 污染检测:你的 LLM 真学会了,还是背过答案了?
用 CoDeC 方法检测 LLM 是否在 Benchmark 数据上训练过:给 Context 反而让模型更不自信,说明它记住了答案。4 个模型 x 5 个 Benchmark 的 H100 实测。
LLM 推理分离架构:从六层技术栈到 H100 实测,PD 分离到底值不值?
拆解 LLM 推理分离的六层技术栈和六大实现,在 2xH100 NVL 上用 8B 和 32B 模型实测 PD 分离、TP、Prefix Cache 和 Chunked Prefill 的真实表现。