书生浦语大模型全链路开源体系——科普

80 阅读1分钟

数据

书生万卷

预训练

InternLM-Train

微调

XTuner

评测

OpenCompass

部署

大语言模型特点

  1. 内存开销巨大
  • 采用自回归生成token,需要缓存key value
  • 庞大的参数量
  1. 动态Shape
  • 请求数不固定
  • token逐个生成,且数量不定
  1. 模型结构相对简单
  • transformer结构,大部分是decoder-only

技术挑战

  1. 设备
  • 低存储设备(消费级显卡、移动端等)如何部署?
  1. 推理
  • 如何加速token的生成速度
  • 如何解决动态shape,让推理可以不间断
  • 如何有效管理和利用内存
  1. 服务
  • 提升系统整体吞吐量
  • 降低请求的平均响应时间

部署方案

  1. 技术点
  • 模型并行
  • 低比特量化
  • Attention优化
  • 计算和访存优化
  • Continous Batching

LMDeploy

tmp64B3.png

image.png

推理性能测试对比

tmp6EE1.png

大模型与智能体

智能体:以大模型为核心,接收指令并做规划和动作等。

tmp38BD.png

应用

多模态智能体工具箱AgentLego

image.png