Datawhale组队学习-大语言模型-day02

2025-03-12 53 阅读1分钟

模型架构

今天主要了解大语言模型的构成

transformer

我们都知道这是当前最主流的AI框架，核心思想就是注意力机制，一般由编码器、解码器组成，类比听懂问题、给出答案两步。

局部截取_20250312_232006.png 本质算是在做矩阵变换，让意思相近的词在空间中靠近。局部截取_20250312_232155.png

模型详细配置

像你买东西比较配置一样，大模型主要比较下面几项：归一化方法、位置编码、激活函数、注意力计算...

局部截取_20250312_232355.png

长上下文模型和新型架构

目前大模型的主要短板在长文本的处理上，虽然可以借用langchain等手段预分割，但是仍然期望有办法用模型能力解决，主要思路就是参数化状态空间模型（控制专业的DNA动了^_^）

总结环节：这部分数学相关的东西比较多，本周先熟悉概念，后面强化的时候再展开，准备按了解概念-操作体验-原理复盘的思路来学。