首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
别摸我的婴儿肥
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
从0开始LLM-GPT-1
使用层归一化对激活进行归一化 由于梯度消失或爆炸等问题,训练具有多层的深度神经网络有时可能具有挑战性。这些问题导致训练动态不稳定,使网络难以有效调整其权重,这意味着学习过程很难为神经网络找到一组参数(
从0开始LLM-GPT-0
本章介绍: 编写类似 GPT 的大型语言模型 (LLM) 编码,该模型可以训练生成类似人类的文本 规范化层激活以稳定神经网络训练 在深度神经网络中添加快捷方式连接以更有效地训练模型 实现 transf
从0开始LLM-注意力机制-4
将单头注意力扩展到多头注意力 在多个头的基础上扩展之前实现的 CausalAttention 类。这被称为多头注意力机制(Multi-head Attention)。 “多头”这一术语指的是将注意力机
从0开始LLM-注意力机制-3
使用因果注意力机制隐藏后续词 修改标准的自注意力机制,创建一个因果注意力(Causal Attention)机制。因果注意力,也称为遮蔽注意力(masked attention),是自注意力的一种特殊
从0开始LLM-注意力机制-2
实现带有可训练权重的自注意力 自注意力机制,被广泛应用于原始的 Transformer 架构、GPT 模型以及大多数其他流行的大语言模型中。这种自注意力机制也被称作缩放点积注意力(scaled dot
从0开始LLM-注意力机制-1
1. 简单自注意力机制 自注意力机制是所有基于 Transformer 架构的大语言模型的核心组成部分。 注:所谓注意力,在深度学习中就是权重。权重大,神经网络关注的就多。权重小,神经网络关注的就少。
从0开始LLM-注意力机制-0
LLM的三个阶段: 构建模型: 数据准备和采样 注意力机制 LLM架构 预训练模型 训练 模型评估 权重 微调模型 在标记数据集上进行微调 从简化版本的自我注意力开始,然后添加可训练的权重
从0开始LLM-词嵌入(embedding)-3
词位置编码 将 token IDs 转换为连续的向量表示,也就是所谓的 token 编码,作为 LLM 的输入。
从0开始LLM-词嵌入(embedding)-2
从0开始LLM-词嵌入(embedding)-2:字节对编码(BPE)和 滑动窗口进行数据采样构建数据集
从0开始LLM-词嵌入(embedding)
从0开始LLM-词嵌入(embedding):神经网络是没有办法直接处理视频、音频和文本等原始数据格式的,需要一种将原始数据表示为密集向量,以满足训练神经网络的数学运算的要求
下一页
个人成就
文章被点赞
35
文章被阅读
5,034
掘力值
350
关注了
9
关注者
9
收藏集
0
关注标签
0
加入于
2022-12-12