首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Himon
掘友等级
算法工程师
大家好,我是一只梦想环游世界的程序猿。 就像相信大米能够煮成米饭,我也相信数据和算法的力量。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
43
文章 42
沸点 1
赞
43
返回
|
搜索文章
最新
热门
MOE原理介绍和代码解读
MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softmax来计算门控网络层的输出。
位置编码RoPE介绍及其优化
绝对位置编码 传统的BERT中的实现方法,假设模型最大输出长度是512,向量纬度是768,需要先初始化一个512*768的位置编码矩阵。在每个位置,将位置编码直接加到token向量上。 问题: 不具备
Qwen1、2、3模型全解析
Qwen: 1.分词器采用BPE: 核心思想:先按照字符切分,逐渐合并出现频率高的子词。 问题: BPE理论上还是会出现OOV的,当词汇表受限,语料中又没有出现过某个子词,这个子词就无法进入词典中。而
LLM参数有效性学习综述
全参数微调 1.显存占用分析: 如果微调一个3B的模型: 模型参数本身的显存: 模型有30亿个参数:3B = 3 * billion 不同精度下的显存占用: FP32(每个参数4字节):3B * 4
DeepSeek模型解析
DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中
Agent设计模式总结
ReAct模式 1.简述 LLM根据当前的结果(Observation),推理和思考(Thought),决定执行什么行动(Action),通过function call的机制得到最新的结果(Obser
Agent-Memory介绍
一:短期记忆:大模型上下文 就是大模型的上下文 二:中期记忆:执行任务记忆 对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt,目标明确。摘要序列存储。 即将Agent过程中的Action单
大规模预训练模型预训练工作记录
1.背景 2.训练 训练过程在固定step卡住 问题描述:使用小批量数据没问题,当使用一定数量数据时。他会在固定step卡住,观察资源占用:在卡住之前,CPU利用率几乎拉满,GPU利用率和内存很低,卡
入门-文本摘要-课程提纲
Outline(规划) class1: 理论课:专题主要内容介绍;文本摘要问题定义和落地场景,目前业内的主流方案和框架和主要问题;常用数据集介绍;摘要质量评估方法,评价指标介绍及其实际问题;文本摘要传
DeepSeek技术解读-从MHA到MLA的完整解读(适合有点基础的同学)
一、传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中,多头注意力机制(MHA)通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力
下一页
个人成就
文章被点赞
121
文章被阅读
47,283
掘力值
1,181
关注了
6
关注者
24
收藏集
0
关注标签
5
加入于
2019-09-19