首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
weikuo
掘友等级
Sr. Engineer@TikTok, Ex-Alibaba Cloud, Ex-Alibaba DAMO Academy
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
weikuo
2月前
关注
【手搓大模型】从零手写Llama3
在前文,我们从零手写了GPT2和Llama2的代码,现在将在Llama2代码的基础上改造,给出Llama3的模型代码。...
2
评论
分享
weikuo
2月前
关注
【手搓大模型】从零手写Llama2
本文在GPT2源码的基础上,实现Llama2代码,理解RMSNorm,RoPE,SwiGLU,并从HuggingFace下载并加载公开权重。...
0
评论
分享
weikuo
2月前
关注
【手搓大模型】GPT2系列前言
理解大模型最好的方式,应该是亲自动手、从零开始实现。本系列文章将带你从零开始实现GPT2源码,并学会训练与微调。...
0
评论
分享
weikuo
2月前
关注
【手搓大模型】从零微调GPT2
实现手动load公开模型权重;利用超小数据集微调GPT2,让GPT2学会响应指令,而不是补全文本;利用本地运行llama3评估训练效果。...
0
评论
分享
weikuo
2月前
关注
【手搓大模型】从零训练GPT2
理解Cross-Entropy,实现在数据集和批量上计算Loss;实现训练代码,并在超小数据集上训练;实现decode控制随机性的方式,包括temperature和top ...
0
评论
分享
weikuo
2月前
关注
【手搓大模型】从零手写GPT2 — Model
【手搓大模型】从零手写GPT2 — Model:构建GPT2的完整骨架,理解LayerNorm和Relu激活,实现Transformer Block;使用未训练的GPT2补...
0
评论
分享
weikuo
2月前
关注
【手搓大模型】从零手写GPT2 — Attention
【手搓大模型】从零手写GPT2 — Attention:理解注意力机制,Mask遮蔽未来词,Dropout随机丢弃,实现单一与多头注意力机制。...
0
评论
分享
weikuo
2月前
关注
【手搓大模型】从零手写GPT2 — Embedding
介绍如何从text到token,再到vector;理解BPE的思想;会用滑动窗口取样;理解Embedding的本质是查表操作;理解位置编码。...
2
评论
分享
个人成就
文章被点赞
4
文章被阅读
713
掘力值
93
关注了
0
关注者
2
收藏集
0
关注标签
3
加入于
2025-07-12