深挖ollama的qwen2.5 Instruct模型Qwen2.5 32B 模型计算推理架构概述 Qwen2.5 32

名称: Qwen2.5 32B Instruct
参数量: 32B
开发组织: Qwen
存储库地址: <a href="https://link.juejin.cn?target=https%3A%2F%2Fhuggingface.co%2FQwen%2FQwen2.5-32B" target="_blank" title="https://huggingface.co/Qwen/Qwen2.5-32B" ref="nofollow noopener noreferrer">Qwen2.5-32B
许可协议: Apache-2.0
量化版本: 2
主要用途: 对话、文本生成
支持语言: 英语

Qwen2.5 32B 是一个基于 Transformer 架构的大型语言模型，经过 Instruct 精调，专注于生成和对话任务，具有高效的推理能力和广泛的应用场景。以下将从架构组成、关键模块和推理过程等方面进行介绍。

权重存储类型: 支持 Q4 和 Q6 量化以优化推理性能。
权重示例:
- token_embd.weight 使用 Q4_K 存储，形状为 [5120, 152064]。
- blk.0.ffn_down.weight 使用 Q6_K 存储，形状为 [27648, 5120]。

输入 Token 化:
- 使用 GPT2 Tokenizer 进行分词，包含 151643 作为 bos_token_id 和 151645 作为 eos_token_id。
- 支持 32,768 的上下文长度以处理长文档。
嵌入表示:
- token_embd.weight 提供嵌入矩阵，大小为 [5120, 152064]，用于将离散的 Token 转换为连续向量。

每个 Transformer 块由以下模块组成：

多头注意力机制 (Multi-Head Attention):
- 使用 40 个注意力头（每头嵌入维度为 5120/40=128）。
- 键值对 (KV) 头数为 8，优化长上下文处理效率。
- 使用 Q4 和 Q6 存储权重以减少计算负载。
  - attn_q.weight: 查询权重，存储为 Q4_K。
  - attn_k.weight 和 attn_v.weight: 键和值权重，存储为 Q4_K 和 Q6_K。
- 输出通过 attn_output.weight 聚合，存储为 Q4_K。
前馈网络 (Feed Forward Network):
- 包括两次线性变换和激活函数。
- 使用 ffn_down.weight 和 ffn_up.weight 进行维度降维和升维。
- 使用 ffn_gate.weight 提供门控机制以增强非线性表示。
规范化:
- 使用 RMS 规范化 (attn_norm.weight 和 ffn_norm.weight)，确保梯度稳定性。

该架构的设计平衡了计算效率和生成能力，是针对高性能生成任务的优秀解决方案。