Datawhale组队学习-大语言模型-day02

53 阅读1分钟

模型架构

今天主要了解大语言模型的构成

transformer

我们都知道这是当前最主流的AI框架,核心思想就是注意力机制,一般由编码器、解码器组成,类比听懂问题、给出答案两步。

局部截取_20250312_232006.png 本质算是在做矩阵变换,让意思相近的词在空间中靠近。 局部截取_20250312_232155.png

模型详细配置

像你买东西比较配置一样,大模型主要比较下面几项:归一化方法、位置编码、激活函数、注意力计算...

局部截取_20250312_232355.png

长上下文模型和新型架构

目前大模型的主要短板在长文本的处理上,虽然可以借用langchain等手段预分割,但是仍然期望有办法用模型能力解决,主要思路就是参数化状态空间模型(控制专业的DNA动了^_^)

总结环节:这部分数学相关的东西比较多,本周先熟悉概念,后面强化的时候再展开,准备按了解概念-操作体验-原理复盘的思路来学。