大模型

大模型

大模型

介绍大模型相关知识

暂无订阅共8篇文章创建于2025-02-14

MOE原理介绍和代码解读

MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softmax来计算门控网络层的输出。

3月前
95
点赞
评论

位置编码RoPE介绍及其优化

绝对位置编码传统的BERT中的实现方法，假设模型最大输出长度是512，向量纬度是768，需要先初始化一个512*768的位置编码矩阵。在每个位置，将位置编码直接加到token向量上。问题：不具备

3月前
286
点赞
评论

Qwen1、2、3模型全解析

Qwen： 1.分词器采用BPE：核心思想：先按照字符切分，逐渐合并出现频率高的子词。问题： BPE理论上还是会出现OOV的，当词汇表受限，语料中又没有出现过某个子词，这个子词就无法进入词典中。而

3月前
395
点赞
评论

LLM参数有效性学习综述

全参数微调 1.显存占用分析：如果微调一个3B的模型：模型参数本身的显存：模型有30亿个参数：3B = 3 * billion 不同精度下的显存占用： FP32（每个参数4字节）：3B * 4

3月前
273
点赞
评论

DeepSeek模型解析

DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制（MHA，Multi-Head Attention）：在标准的Transformer中

3月前
183
点赞
评论

Agent设计模式总结

ReAct模式 1.简述 LLM根据当前的结果（Observation），推理和思考（Thought），决定执行什么行动（Action），通过function call的机制得到最新的结果（Obser

3月前
182
点赞
评论

Agent-Memory介绍

一：短期记忆：大模型上下文就是大模型的上下文二：中期记忆：执行任务记忆对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt，目标明确。摘要序列存储。即将Agent过程中的Action单

3月前
162
点赞
评论

DeepSeek技术解读-从MHA到MLA的完整解读（适合有点基础的同学）

一、传统的多头注意力机制（MHA，Multi-Head Attention）：在标准的Transformer中，多头注意力机制（MHA）通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力

9月前
565
1
评论