看看 Tensorrt-LLM 的 XQA 内核如何在相同的延迟下提供高达2.4倍的吞吐量。
* 在生成过程中优化 MQA 和 GQA
* 优化波束搜索
* 以相同的延迟预算提高吞吐量
* 用张量核加速;减少数据加载和转换
nvdev于2024-02-01 08:29发布的图片
评论