模型架构
今天主要了解大语言模型的构成
transformer
我们都知道这是当前最主流的AI框架,核心思想就是注意力机制,一般由编码器、解码器组成,类比听懂问题、给出答案两步。
本质算是在做矩阵变换,让意思相近的词在空间中靠近。
模型详细配置
像你买东西比较配置一样,大模型主要比较下面几项:归一化方法、位置编码、激活函数、注意力计算...
长上下文模型和新型架构
目前大模型的主要短板在长文本的处理上,虽然可以借用langchain等手段预分割,但是仍然期望有办法用模型能力解决,主要思路就是参数化状态空间模型(控制专业的DNA动了^_^)
总结环节:这部分数学相关的东西比较多,本周先熟悉概念,后面强化的时候再展开,准备按了解概念-操作体验-原理复盘的思路来学。