XTunnel,训练速度快一些。命令行比较方便。
LMDeploy ,高效且友好的LLMs部署框架。
- 高效的推理。动态拆分和融合张量并行。
- 可靠的量化
- 便捷的服务
- 有状态推理
- 卓越的兼容性
量化工具比较好。 如何调用,如何加速。加速的方法就是量化。
状态缓存,将历史信息进行保存。有个注意力机制实现了这个逻辑。
整个工具链搭建会比较方便。
Transformer
-
编码器 BERT 特征提取器。
理解数据表达什么含义。数据会变得很抽象。
-
解码器 GPT 数据生成器
本质还是分类。
判别模型:条件概率 生成模型:联合概率
把联合概率转换为条件概率来计算的。因为联合概率比较难。
朴素贝叶斯,假定相对独立。但是这个假定经常不成立。 贝叶斯。极大似然估值法。
编码器6层,解码器6层,总共12层。当初的时候加到12层才发现效果。
编码器
transformer block: 激活 前馈神经网络(MLP) 多头自注意力
注意力机制:人眼会自动去捕捉信息量最大的部分。
Mp,CNN,RNN做事的时候,会偏向于全局信息。
Q,K做归一化。做权重。
Q=K=V,来源于同一个输入。就是自注意力机制。
Q,K,V分批次,多组的时候,就是多头
自注意力,因果注意力
flash attention
多模态。是完整的transtmer
量化导出
Key-Value(KV)Cache量化,在线量化。