首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Yunzenn
掘友等级
浙江杭州大学生求实习
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
23
文章 23
沸点 0
赞
23
返回
|
搜索文章
Yunzenn
@浙江杭州大学生求实习
·
2天前
关注
第12章:综合面试演练——从零设计一个Transformer
第12章:综合面试演练——从零设计一个Transformer 本章使用说明 这一章不是让你背答案的。每道题我会给出答题框架——也就是你应该从哪几章提取知识点来组织回答。具体...
0
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
3天前
关注
第11章:长文本之战——Kimi如何突破200K+ tokens?
第11章:长文本之战——Kimi如何突破200K+ tokens? 核心困惑 为什么Kimi能处理200K+ tokens,而原论文的Transformer只能处理512 ...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
4天前
关注
第10章:MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果?
第10章:MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果? 核心困惑 为什么DeepSeek V3能用671B参数达到GPT-4的效果,但...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
5天前
关注
第09章:架构选择的分野——Decoder-only为什么赢了通用语言建模?
第09章:架构选择的分野——Decoder-only为什么赢了通用语言建模? 核心困惑 为什么GPT、Claude、Gemini都选择Decoder-only架构?Enco...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
5天前
关注
第08章:训练的艺术——Warmup、Label Smoothing与Adam的共谋
第08章:训练的艺术——Warmup、Label Smoothing与Adam的共谋 核心困惑 为什么Transformer需要学习率warmup?Label Smooth...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
14天前
关注
第07章:FFN——Transformer的”知识存储”藏在哪?
第07章:FFN——Transformer的”知识存储”藏在哪? 由于掘金格式识别错误,所以有些公式会显示错误或者消失,看完整内容可移步其他平台或GitHub,https:...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
14天前
关注
第06章:Positional Encoding——正弦波是如何教会模型”数数”的?
第06章:Positional Encoding——正弦波是如何教会模型”数数”的? 核心困惑 为什么选择正弦函数?为什么不直接学习位置编码? Self-Attention...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
17天前
关注
第05章:残差连接与Layer Normalization——Transformer的"高速公路"
第05章:残差连接与Layer Normalization——Transformer的"高速公路" 核心困惑 残差连接和LayerNorm各自解决什么问题?Pre-LN和P...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
18天前
关注
第04章:Multi-Head Attention——八个头,八个视角,还是八份低秩分解?
第04章:Multi-Head Attention——八个头,八个视角,还是八份低秩分解? 由于掘金平台限制,完整版(含架构图和数学公式)请访问其他平台同名账号或: 📖 ...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
19天前
关注
第03章:Scaled Dot-Product Attention——那个√d_k到底在防什么?
第03章:Scaled Dot-Product Attention——那个√d_k到底在防什么? 本系列包含12章深度技术文章,涵盖Attention机制、架构设计等核心内...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
19天前
关注
零基础复现Claude Code(八):反思与展望——我们得到了什么,还缺什么?
零基础复现Claude Code(八):反思与展望——我们得到了什么,还缺什么? 开篇:诚实的对照 第7篇的成就:我们给Agent装上了"搜索能力"——它能在整个项目中找到...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
19天前
关注
零基础复现Claude Code(七):上下文篇——让Agent看懂整个文件夹
零基础复现Claude Code(七):上下文篇——让Agent看懂整个文件夹 开篇:从"单文件"到"项目级" 第6篇的成就:我们组装了完整的Mini Claude Cod...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
20天前
关注
零基础复现Claude Code(六):整合篇——组装Mini Claude Code
零基础复现Claude Code(六):整合篇——组装Mini Claude Code 开篇:从零件到整机 第5篇的成就:我们给Agent装上了"终端"——它能执行命令、跑...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
20天前
关注
零基础复现Claude Code(五):终端篇——赋予执行命令的超能力
零基础复现Claude Code(五):终端篇——赋予执行命令的超能力 开篇:从"能改"到"能验证" 第4篇的成就:我们给Agent装上了"双手"——它能真正读写文件了,不...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
20天前
关注
第02章:Transformer架构全景图——Encoder、Decoder与三种Attention的数据流
第02章:Transformer架构全景图——Encoder、Decoder与三种Attention的数据流 核心困惑 Transformer的整体架构是什么样的?Enco...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
20天前
关注
零基础复现Claude Code(四):双手篇——赋予读写文件的能力
开篇:从"纸上谈兵"到"真刀真枪" 上一篇,我们实现了ReAct循环的骨架——Agent已经会"想"了。它能输出: 但这只是一段文本,文件并没有真的被读取。 第3篇的成就:...
1
评论
分享
Yunzenn
@浙江杭州大学生求实习
·
21天前
关注
第01章:为什么是Attention?——从RNN的梯度瓶颈到Self-Attention的常数量路径
第01章:为什么是Attention?——从RNN的梯度瓶颈到Self-Attention的常数量路径 核心困惑 为什么Transformer要完全抛弃RNN和CNN,仅仅...
1
评论
分享
下一页
个人成就
文章被点赞
24
文章被阅读
898
掘力值
274
关注了
0
关注者
2
收藏集
0
关注标签
4
加入于
2026-04-21