首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Yunzenn
掘友等级
浙江杭州大学生求实习
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
23
文章 23
沸点 0
赞
23
返回
|
搜索文章
赞
文章( 23 )
沸点( 0 )
第11章:长文本之战——Kimi如何突破200K+ tokens?
第11章:长文本之战——Kimi如何突破200K+ tokens? 核心困惑 为什么Kimi能处理200K+ tokens,而原论文的Transformer只能处理512 tokens? 原论文的Tr
第07章:FFN——Transformer的”知识存储”藏在哪?
第07章:FFN——Transformer的”知识存储”藏在哪? 由于掘金格式识别错误,所以有些公式会显示错误或者消失,看完整内容可移步其他平台或GitHub,https://github.com/Y
第08章:训练的艺术——Warmup、Label Smoothing与Adam的共谋
第08章:训练的艺术——Warmup、Label Smoothing与Adam的共谋 核心困惑 为什么Transformer需要学习率warmup?Label Smoothing为什么有效? 前面七章
第10章:MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果?
第10章:MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果? 核心困惑 为什么DeepSeek V3能用671B参数达到GPT-4的效果,但推理成本只有1/10? 原论
第09章:架构选择的分野——Decoder-only为什么赢了通用语言建模?
第09章:架构选择的分野——Decoder-only为什么赢了通用语言建模? 核心困惑 为什么GPT、Claude、Gemini都选择Decoder-only架构?Encoder-Decoder架构死
第04章:Multi-Head Attention——八个头,八个视角,还是八份低秩分解?
第04章:Multi-Head Attention——八个头,八个视角,还是八份低秩分解? 由于掘金平台限制,完整版(含架构图和数学公式)请访问其他平台同名账号或: 📖 GitHub: https:/
第05章:残差连接与Layer Normalization——Transformer的"高速公路"
第05章:残差连接与Layer Normalization——Transformer的"高速公路" 核心困惑 残差连接和LayerNorm各自解决什么问题?Pre-LN和Post-LN有什么区别? 前
第06章:Positional Encoding——正弦波是如何教会模型”数数”的?
第06章:Positional Encoding——正弦波是如何教会模型”数数”的? 核心困惑 为什么选择正弦函数?为什么不直接学习位置编码? Self-Attention本身是位置无关的:Atten
零基础复现Claude Code(八):反思与展望——我们得到了什么,还缺什么?
零基础复现Claude Code(八):反思与展望——我们得到了什么,还缺什么? 开篇:诚实的对照 第7篇的成就:我们给Agent装上了"搜索能力"——它能在整个项目中找到相关代码,不再需要你明确指定
第03章:Scaled Dot-Product Attention——那个√d_k到底在防什么?
第03章:Scaled Dot-Product Attention——那个√d_k到底在防什么? 本系列包含12章深度技术文章,涵盖Attention机制、架构设计等核心内容。 由于掘金平台限制,完整
下一页
个人成就
文章被点赞
24
文章被阅读
895
掘力值
274
关注了
0
关注者
2
收藏集
0
关注标签
4
加入于
2026-04-21