MindIE是什么
华为昇腾针对AI全场景的推理加速套件。分层开放AI能力,支撑AI业务需求,释放昇腾设备算力。
向上支持主流AI框架,向下对接不同类型昇腾处理器。
总体架构
-
推理服务化:MindIE Service,第三方推理服务(TGI、vLLM、Triton) 请求并发、模型多实例并发
-
推理套件:MindIE LLM、MindIE SD 调度优化:CB; 工作流优化:自回归解码; 稀疏量化、并行推理
-
AI框架:MS,Pytorch 图优化、模型压缩
-
推理运行时:MindIE-RT 图优化、算子融合;量化、混合精度加速;异步下发,多流水
关键功能特性
- 服务化部署 用户侧推理服务化接口、调度优化。
- 大模型推理 逐级能力开放,使能大模型客户定制需求。
- Pytorch模型迁移
- 推理运行时
MindIE Service
核心组件 推理服务化平台,推理服务化框架。
关键特性:
1 大小模型投机推理:decoding阶段计算访存比低,串行转并行(小batch场景,小模型打草稿,大模型并行验证);
2 多机推理:万亿MOE(通信优化、通算融合)、超长序列(kv压缩、kv-offload)
MindIE LLM
核心组件 推理优化的高性能SDK,包含深度优化模型库、推理优化器。
- LLM Runtime
- Text Generator 自回归推理接口,前后处理
- Modeling 社区模型做一些改写
关键特性:
1 CB(多batch推理场景,空气泡),token级别调度;
2 PA,需要算子层面支持; 3 FlashDecoding 融合大算子,在FA基础上,增加新的并行维度:keys/values序列长度 应用场景:适用小batch、长序列。 4 LookAHead并行解码
应用场景:输入输出文本比较长场景 利用LLM推理冗余算力,一次decode并行生成多个token;算法对结果校验。
5 并行推理、通算融合
6 量化压缩