框架系列-MindIE介绍

629 阅读2分钟

MindIE是什么

华为昇腾针对AI全场景的推理加速套件分层开放AI能力,支撑AI业务需求,释放昇腾设备算力。 向上支持主流AI框架,向下对接不同类型昇腾处理器。

总体架构

  • 推理服务化:MindIE Service,第三方推理服务(TGI、vLLM、Triton) 请求并发、模型多实例并发

  • 推理套件:MindIE LLM、MindIE SD 调度优化:CB; 工作流优化:自回归解码; 稀疏量化、并行推理

  • AI框架:MS,Pytorch 图优化、模型压缩

  • 推理运行时:MindIE-RT 图优化、算子融合;量化、混合精度加速;异步下发,多流水

关键功能特性

  • 服务化部署 用户侧推理服务化接口、调度优化。
  • 大模型推理 逐级能力开放,使能大模型客户定制需求。
  • Pytorch模型迁移
  • 推理运行时

MindIE Service
核心组件 推理服务化平台,推理服务化框架。
关键特性:
1 大小模型投机推理:decoding阶段计算访存比低,串行转并行(小batch场景,小模型打草稿,大模型并行验证);
2 多机推理:万亿MOE(通信优化、通算融合)、超长序列(kv压缩、kv-offload)

MindIE LLM
核心组件 推理优化的高性能SDK,包含深度优化模型库、推理优化器。

  • LLM Runtime
  • Text Generator 自回归推理接口,前后处理
  • Modeling 社区模型做一些改写

关键特性

1 CB(多batch推理场景,空气泡),token级别调度;
2 PA,需要算子层面支持; 3 FlashDecoding 融合大算子,在FA基础上,增加新的并行维度:keys/values序列长度 应用场景:适用小batch、长序列。 4 LookAHead并行解码
应用场景:输入输出文本比较长场景 利用LLM推理冗余算力,一次decode并行生成多个token;算法对结果校验。
5 并行推理、通算融合
6 量化压缩