[笔记][大模型学习]18-LMDeploy部署大模型

4 阅读1分钟

XTunnel,训练速度快一些。命令行比较方便。

LMDeploy ,高效且友好的LLMs部署框架。

  • 高效的推理。动态拆分和融合张量并行。
  • 可靠的量化
  • 便捷的服务
  • 有状态推理
  • 卓越的兼容性

量化工具比较好。 如何调用,如何加速。加速的方法就是量化。

状态缓存,将历史信息进行保存。有个注意力机制实现了这个逻辑。

整个工具链搭建会比较方便。

Transformer

  • 编码器 BERT 特征提取器。

    理解数据表达什么含义。数据会变得很抽象。

  • 解码器 GPT 数据生成器

    本质还是分类。

判别模型:条件概率 生成模型:联合概率

把联合概率转换为条件概率来计算的。因为联合概率比较难。

朴素贝叶斯,假定相对独立。但是这个假定经常不成立。 贝叶斯。极大似然估值法。

编码器6层,解码器6层,总共12层。当初的时候加到12层才发现效果。

编码器

transformer block: 激活 前馈神经网络(MLP) 多头自注意力

注意力机制:人眼会自动去捕捉信息量最大的部分。

Mp,CNN,RNN做事的时候,会偏向于全局信息。

Q,K做归一化。做权重。

Q=K=V,来源于同一个输入。就是自注意力机制。

Q,K,V分批次,多组的时候,就是多头

自注意力,因果注意力

flash attention

多模态。是完整的transtmer

量化导出

Key-Value(KV)Cache量化,在线量化。