首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大模型
Himon
创建于2025-02-14
订阅专栏
介绍大模型相关知识
暂无订阅
共8篇文章
创建于2025-02-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
MOE原理介绍和代码解读
MEGABLOCKS Switch Transformers 模型介绍 Swith Transformer的MoE设计是门控网络每次只route到1个专家。采用softmax来计算门控网络层的输出。
位置编码RoPE介绍及其优化
绝对位置编码 传统的BERT中的实现方法,假设模型最大输出长度是512,向量纬度是768,需要先初始化一个512*768的位置编码矩阵。在每个位置,将位置编码直接加到token向量上。 问题: 不具备
Qwen1、2、3模型全解析
Qwen: 1.分词器采用BPE: 核心思想:先按照字符切分,逐渐合并出现频率高的子词。 问题: BPE理论上还是会出现OOV的,当词汇表受限,语料中又没有出现过某个子词,这个子词就无法进入词典中。而
LLM参数有效性学习综述
全参数微调 1.显存占用分析: 如果微调一个3B的模型: 模型参数本身的显存: 模型有30亿个参数:3B = 3 * billion 不同精度下的显存占用: FP32(每个参数4字节):3B * 4
DeepSeek模型解析
DeepSeek-V2 Multi-head Latent Attention (MLA) 传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中
Agent设计模式总结
ReAct模式 1.简述 LLM根据当前的结果(Observation),推理和思考(Thought),决定执行什么行动(Action),通过function call的机制得到最新的结果(Obser
Agent-Memory介绍
一:短期记忆:大模型上下文 就是大模型的上下文 二:中期记忆:执行任务记忆 对上一阶段的对话进行阶段性摘要。根据任务精心设计prompt,目标明确。摘要序列存储。 即将Agent过程中的Action单
DeepSeek技术解读-从MHA到MLA的完整解读(适合有点基础的同学)
一、传统的多头注意力机制(MHA,Multi-Head Attention): 在标准的Transformer中,多头注意力机制(MHA)通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力