高性能计算网课汇总 杜子源源 2025-05-23 145 阅读1分钟 大模型相关 斯坦福CS336:大模型从0到1 目录: 概述和tokenization pytorch手把手搭建LLM 详解MOE架构 详解现代LLM基础架构 详解GPU架构、性能优化 手写高性能算子 详解大模型并行化策略 手撕大模型并行训练 详解Scaling Law 总时长大概9-10小时左右。 个人笔记: TODO,后续会慢慢更新