首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
谁tm抢我神奇小饼干
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
学习记录:分布式训练03
Distributed Data Parallel 原理及应用 Distributed Data Parallel 原理 训练流程: Step1 使用多个进程,每个进程都加载数据和模型 Step2 各
学习记录:分布式训练02
Data Parallerl 原理与应用 Data Parrallel 原理 什么是数据并行 每个GPU里都存一份完整的模型,训练时每个GPU里的模型训练不同的数据 适用于单卡能够运行完整训练流程的情
学习记录:分布式训练01
分布式训练基础与环境配置 来源:【手把手带你实战HuggingFace Transformers-分布式训练篇】分布式训练与环境配置 什么是分布式训练 分布式(Distributed)是指系统或计算任
Transfomer学习记录:输出层
线性层的作⽤: 通过对上⼀步的线性变化得到指定维度的输出, 也就是转换维度的作⽤ softmax层的作⽤: 使最后⼀维的向量中的数字缩放到0-1的概率值域内, 并满⾜他们的和为1 代码实现:
Transfomer学习记录:解码器
解码器由N个解码器层堆叠⽽成: 每个解码器层由三个⼦层连接结构组成 第⼀个⼦层连接结构包括⼀个多头⾃注意⼒⼦层和规范化层以及⼀个残差连接 第⼆个⼦层连接结构包括⼀个多头注意⼒⼦层和规范化层以及⼀个残差
Transfomer学习记录:编码器
Part1:掩码张量 什么是掩码张量: 掩代表遮掩,码就是我们张量中的数值,它的尺⼨不定,⾥⾯⼀般只有1和0的元素,代表位置被遮掩或者不被遮掩,⾄于是0位置被遮掩还是1位置被遮掩可以⾃定义,因此它的作
Transformer学习记录:输入层
初识Transformer Transformer模型的作⽤:基于seq2seq架构的transformer模型可以完成NLP领域研究的典型任务, 如机器翻译, ⽂本⽣成等,同时⼜可以构建预训练语⾔模
学习记录:创建scgpt虚拟环境,用于微调预训练模型,用于下游任务
创建scgpt虚拟环境,用于微调预训练模型,用于下游任务,需要安装的包大致为R、pytorch、flashAttentin等
个人成就
文章被点赞
3
文章被阅读
967
掘力值
114
关注了
2
关注者
1
收藏集
0
关注标签
13
加入于
2024-05-15