#每天一个知识点# MInference 是微软推出的一个能实现在单个 A100 GPU 上处理 1M 上下文的 10 倍推理速度提升,同时保持甚至提高其准确性。
13