Yunzenn

浙江杭州大学生求实习

赞

23

|

搜索文章

@浙江杭州大学生求实习

·

2天前

第12章：综合面试演练——从零设计一个Transformer

第12章：综合面试演练——从零设计一个Transformer 本章使用说明这一章不是让你背答案的。每道题我会给出答题框架——也就是你应该从哪几章提取知识点来组织回答。具体...

0

评论

@浙江杭州大学生求实习

·

3天前

第11章：长文本之战——Kimi如何突破200K+ tokens？

第11章：长文本之战——Kimi如何突破200K+ tokens？核心困惑为什么Kimi能处理200K+ tokens，而原论文的Transformer只能处理512 ...

1

评论

@浙江杭州大学生求实习

·

4天前

第10章：MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果？

第10章：MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果？核心困惑为什么DeepSeek V3能用671B参数达到GPT-4的效果，但...

1

评论

@浙江杭州大学生求实习

·

5天前

第09章：架构选择的分野——Decoder-only为什么赢了通用语言建模？

第09章：架构选择的分野——Decoder-only为什么赢了通用语言建模？核心困惑为什么GPT、Claude、Gemini都选择Decoder-only架构？Enco...

1

评论

@浙江杭州大学生求实习

·

5天前

第08章：训练的艺术——Warmup、Label Smoothing与Adam的共谋

第08章：训练的艺术——Warmup、Label Smoothing与Adam的共谋核心困惑为什么Transformer需要学习率warmup？Label Smooth...

1

评论

@浙江杭州大学生求实习

·

14天前

第07章：FFN——Transformer的”知识存储”藏在哪？

第07章：FFN——Transformer的”知识存储”藏在哪？由于掘金格式识别错误，所以有些公式会显示错误或者消失，看完整内容可移步其他平台或GitHub，https:...

1

评论

@浙江杭州大学生求实习

·

14天前

第06章：Positional Encoding——正弦波是如何教会模型”数数”的？

第06章：Positional Encoding——正弦波是如何教会模型”数数”的？核心困惑为什么选择正弦函数？为什么不直接学习位置编码？ Self-Attention...

1

评论

@浙江杭州大学生求实习

·

17天前

第05章：残差连接与Layer Normalization——Transformer的"高速公路"

第05章：残差连接与Layer Normalization——Transformer的"高速公路" 核心困惑残差连接和LayerNorm各自解决什么问题？Pre-LN和P...

1

评论

@浙江杭州大学生求实习

·

18天前

第04章：Multi-Head Attention——八个头，八个视角，还是八份低秩分解？

第04章：Multi-Head Attention——八个头，八个视角，还是八份低秩分解？由于掘金平台限制，完整版（含架构图和数学公式）请访问其他平台同名账号或： 📖 ...

1

评论

@浙江杭州大学生求实习

·

19天前

第03章：Scaled Dot-Product Attention——那个√d_k到底在防什么？

第03章：Scaled Dot-Product Attention——那个√d_k到底在防什么？本系列包含12章深度技术文章，涵盖Attention机制、架构设计等核心内...

1

评论

@浙江杭州大学生求实习

·

19天前

零基础复现Claude Code（八）：反思与展望——我们得到了什么，还缺什么？

零基础复现Claude Code（八）：反思与展望——我们得到了什么，还缺什么？开篇：诚实的对照第7篇的成就：我们给Agent装上了"搜索能力"——它能在整个项目中找到...

1

评论

@浙江杭州大学生求实习

·

19天前

零基础复现Claude Code（七）：上下文篇——让Agent看懂整个文件夹

零基础复现Claude Code（七）：上下文篇——让Agent看懂整个文件夹开篇：从"单文件"到"项目级" 第6篇的成就：我们组装了完整的Mini Claude Cod...

1

评论

@浙江杭州大学生求实习

·

20天前

零基础复现Claude Code（六）：整合篇——组装Mini Claude Code

零基础复现Claude Code（六）：整合篇——组装Mini Claude Code 开篇：从零件到整机第5篇的成就：我们给Agent装上了"终端"——它能执行命令、跑...

1

评论

@浙江杭州大学生求实习

·

20天前

零基础复现Claude Code（五）：终端篇——赋予执行命令的超能力

零基础复现Claude Code（五）：终端篇——赋予执行命令的超能力开篇：从"能改"到"能验证" 第4篇的成就：我们给Agent装上了"双手"——它能真正读写文件了，不...

1

评论

@浙江杭州大学生求实习

·

20天前

第02章：Transformer架构全景图——Encoder、Decoder与三种Attention的数据流

第02章：Transformer架构全景图——Encoder、Decoder与三种Attention的数据流核心困惑 Transformer的整体架构是什么样的？Enco...

1

评论

@浙江杭州大学生求实习

·

20天前

零基础复现Claude Code（四）：双手篇——赋予读写文件的能力

开篇：从"纸上谈兵"到"真刀真枪" 上一篇，我们实现了ReAct循环的骨架——Agent已经会"想"了。它能输出：但这只是一段文本，文件并没有真的被读取。第3篇的成就：...

1

评论

@浙江杭州大学生求实习

·

21天前

第01章：为什么是Attention？——从RNN的梯度瓶颈到Self-Attention的常数量路径

第01章：为什么是Attention？——从RNN的梯度瓶颈到Self-Attention的常数量路径核心困惑为什么Transformer要完全抛弃RNN和CNN，仅仅...

1

评论

个人成就

文章被点赞 24

文章被阅读 898

加入于

2026-04-21