框架系列-MindIE介绍MindIE是什么华为昇腾针对AI全场景的推理加速套件。分层开放AI能力，支撑AI业务需求，

MindIE是什么

华为昇腾针对AI全场景的推理加速套件。分层开放AI能力，支撑AI业务需求，释放昇腾设备算力。向上支持主流AI框架，向下对接不同类型昇腾处理器。

总体架构

推理服务化：MindIE Service，第三方推理服务（TGI、vLLM、Triton）请求并发、模型多实例并发
推理套件：MindIE LLM、MindIE SD 调度优化：CB；工作流优化：自回归解码；稀疏量化、并行推理
AI框架：MS，Pytorch 图优化、模型压缩
推理运行时：MindIE-RT 图优化、算子融合；量化、混合精度加速；异步下发，多流水

关键功能特性

服务化部署用户侧推理服务化接口、调度优化。
大模型推理逐级能力开放，使能大模型客户定制需求。
Pytorch模型迁移
推理运行时

MindIE Service
核心组件 推理服务化平台，推理服务化框架。
关键特性:
1 大小模型投机推理：decoding阶段计算访存比低，串行转并行（小batch场景，小模型打草稿，大模型并行验证）；
2 多机推理：万亿MOE（通信优化、通算融合）、超长序列（kv压缩、kv-offload）

MindIE LLM
核心组件 推理优化的高性能SDK，包含深度优化模型库、推理优化器。

LLM Runtime
Text Generator 自回归推理接口，前后处理
Modeling 社区模型做一些改写

关键特性：

1 CB（多batch推理场景，空气泡），token级别调度;
2 PA，需要算子层面支持； 3 FlashDecoding 融合大算子，在FA基础上，增加新的并行维度：keys/values序列长度应用场景：适用小batch、长序列。 4 LookAHead并行解码
应用场景：输入输出文本比较长场景利用LLM推理冗余算力，一次decode并行生成多个token；算法对结果校验。
5 并行推理、通算融合
6 量化压缩