数据
书生万卷
预训练
InternLM-Train
微调
XTuner
评测
OpenCompass
部署
大语言模型特点
- 内存开销巨大
- 采用自回归生成token,需要缓存key value
- 庞大的参数量
- 动态Shape
- 请求数不固定
- token逐个生成,且数量不定
- 模型结构相对简单
- transformer结构,大部分是decoder-only
技术挑战
- 设备
- 低存储设备(消费级显卡、移动端等)如何部署?
- 推理
- 如何加速token的生成速度
- 如何解决动态shape,让推理可以不间断
- 如何有效管理和利用内存
- 服务
- 提升系统整体吞吐量
- 降低请求的平均响应时间
部署方案
- 技术点
- 模型并行
- 低比特量化
- Attention优化
- 计算和访存优化
- Continous Batching
LMDeploy
推理性能测试对比
大模型与智能体
智能体:以大模型为核心,接收指令并做规划和动作等。
应用
多模态智能体工具箱AgentLego