首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Yunzenn
掘友等级
浙江杭州大学生求实习
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
23
文章 23
沸点 0
赞
23
返回
|
搜索文章
最新
热门
第12章:综合面试演练——从零设计一个Transformer
第12章:综合面试演练——从零设计一个Transformer 本章使用说明 这一章不是让你背答案的。每道题我会给出答题框架——也就是你应该从哪几章提取知识点来组织回答。具体的答案需要你自己组织。 为什
第11章:长文本之战——Kimi如何突破200K+ tokens?
第11章:长文本之战——Kimi如何突破200K+ tokens? 核心困惑 为什么Kimi能处理200K+ tokens,而原论文的Transformer只能处理512 tokens? 原论文的Tr
第10章:MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果?
第10章:MoE架构深度拆解——DeepSeek V3如何用671B参数达到GPT-4效果? 核心困惑 为什么DeepSeek V3能用671B参数达到GPT-4的效果,但推理成本只有1/10? 原论
第09章:架构选择的分野——Decoder-only为什么赢了通用语言建模?
第09章:架构选择的分野——Decoder-only为什么赢了通用语言建模? 核心困惑 为什么GPT、Claude、Gemini都选择Decoder-only架构?Encoder-Decoder架构死
第08章:训练的艺术——Warmup、Label Smoothing与Adam的共谋
第08章:训练的艺术——Warmup、Label Smoothing与Adam的共谋 核心困惑 为什么Transformer需要学习率warmup?Label Smoothing为什么有效? 前面七章
第07章:FFN——Transformer的”知识存储”藏在哪?
第07章:FFN——Transformer的”知识存储”藏在哪? 由于掘金格式识别错误,所以有些公式会显示错误或者消失,看完整内容可移步其他平台或GitHub,https://github.com/Y
第06章:Positional Encoding——正弦波是如何教会模型”数数”的?
第06章:Positional Encoding——正弦波是如何教会模型”数数”的? 核心困惑 为什么选择正弦函数?为什么不直接学习位置编码? Self-Attention本身是位置无关的:Atten
第05章:残差连接与Layer Normalization——Transformer的"高速公路"
第05章:残差连接与Layer Normalization——Transformer的"高速公路" 核心困惑 残差连接和LayerNorm各自解决什么问题?Pre-LN和Post-LN有什么区别? 前
第04章:Multi-Head Attention——八个头,八个视角,还是八份低秩分解?
第04章:Multi-Head Attention——八个头,八个视角,还是八份低秩分解? 由于掘金平台限制,完整版(含架构图和数学公式)请访问其他平台同名账号或: 📖 GitHub: https:/
第03章:Scaled Dot-Product Attention——那个√d_k到底在防什么?
第03章:Scaled Dot-Product Attention——那个√d_k到底在防什么? 本系列包含12章深度技术文章,涵盖Attention机制、架构设计等核心内容。 由于掘金平台限制,完整
下一页
个人成就
文章被点赞
24
文章被阅读
894
掘力值
274
关注了
0
关注者
2
收藏集
0
关注标签
4
加入于
2026-04-21