[笔记][大模型学习]18-LMDeploy部署大模型XTunnel，训练速度快一些。命令行比较方便。 LMDeploy

XTunnel，训练速度快一些。命令行比较方便。

LMDeploy ，高效且友好的LLMs部署框架。

量化工具比较好。如何调用，如何加速。加速的方法就是量化。

状态缓存，将历史信息进行保存。有个注意力机制实现了这个逻辑。

整个工具链搭建会比较方便。

判别模型：条件概率生成模型：联合概率

把联合概率转换为条件概率来计算的。因为联合概率比较难。

朴素贝叶斯,假定相对独立。但是这个假定经常不成立。贝叶斯。极大似然估值法。

编码器6层，解码器6层，总共12层。当初的时候加到12层才发现效果。

编码器

transformer block: 激活前馈神经网络（MLP）多头自注意力

注意力机制：人眼会自动去捕捉信息量最大的部分。

Mp,CNN,RNN做事的时候，会偏向于全局信息。

Q,K做归一化。做权重。

Q=K=V，来源于同一个输入。就是自注意力机制。

Q,K，V分批次，多组的时候，就是多头

自注意力，因果注意力

flash attention

多模态。是完整的transtmer

Key-Value(KV)Cache量化，在线量化。