首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Himon
掘友等级
算法工程师
大家好,我是一只梦想环游世界的程序猿。 就像相信大米能够煮成米饭,我也相信数据和算法的力量。
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
43
文章 42
沸点 1
赞
43
返回
|
搜索文章
最新
热门
MOE原理介绍和代码解读
MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softmax来计算门控网络层的输出。
位置编码RoPE介绍及其优化
绝对位置编码 传统的BERT中的实现方法,假设模型最大输出长度是512,向量纬度是768,需要先初始化一个512*768的位置编码矩阵。在每个位置,将位置编码直接加到token向量上。 问题: 不具备
Qwen1、2、3模型全解析
Qwen: 1.分词器采用BPE: 核心思想:先按照字符切分,逐渐合并出现频率高的子词。 问题: BPE理论上还是会出现OOV的,当词汇表受限,语料中又没有出现过某个子词,这个子词就无法进入词典中。而
LLM参数有效性学习综述
全参数微调 1.显存占用分析: 如果微调一个3B的模型: 模型参数本身的显存: 模型有30亿个参数:3B = 3 * billion 不同精度下的显存占用: FP32(每个参数4字节):3B * 4
DeepSeek模型解析
DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中
Agent设计模式总结
ReAct模式 1.简述 LLM根据当前的结果(Observation),推理和思考(Thought),决定执行什么行动(Action),通过function call的机制得到最新的结果(Obser
Agent-Memory介绍
一:短期记忆:大模型上下文 就是大模型的上下文 二:中期记忆:执行任务记忆 对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt,目标明确。摘要序列存储。 即将Agent过程中的Action单
大规模预训练模型预训练工作记录
1.背景 2.训练 训练过程在固定step卡住 问题描述:使用小批量数据没问题,当使用一定数量数据时。他会在固定step卡住,观察资源占用:在卡住之前,CPU利用率几乎拉满,GPU利用率和内存很低,卡
入门-文本摘要-课程提纲
Outline(规划) class1: 理论课:专题主要内容介绍;文本摘要问题定义和落地场景,目前业内的主流方案和框架和主要问题;常用数据集介绍;摘要质量评估方法,评价指标介绍及其实际问题;文本摘要传
DeepSeek技术解读-从MHA到MLA的完整解读(适合有点基础的同学)
一、传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中,多头注意力机制(MHA)通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力
下一页
个人成就
文章被点赞
121
文章被阅读
44,299
掘力值
1,175
关注了
6
关注者
24
收藏集
0
关注标签
5
加入于
2019-09-19