自学概念整合1.0

27 阅读2分钟

RDMA:RDMA是一种概念,在两个或者多个计算机进行通讯的时候使用DMA, 从一个主机的内存直接访问另一个主机的内存。 RDMA是一种host-offload, host-bypass技术,允许应用程序(包括存储)在它们的内存空间之间直接做数据传输。具有RDMA引擎的以太网卡RNIC--而不是host--负责管理源和目标之间的可靠连接。使用RNIC的应用程序之间使用专注的QP和CQ进行通讯。

vLLM是一个专注于高性能LLM推理的工具。它能够有效地利用多核CPU和GPU资源,显著提升LLM的推理速度。vLLM的主要优势在于:

  • 高推理速度: vLLM在推理速度方面表现出色,能够快速生成LLM的输出。
  • 资源利用率高: vLLM能够充分利用多核CPU和GPU资源,提升资源利用率。
  • 灵活配置: vLLM允许用户根据实际需求灵活配置参数,例如模型路径、端口号等。

ACS是以Kubernetes为使用界面的容器服务产品,提供符合容器规范的通用算力和异构算力。容器算力交付模式为Serverless形态,用户无需关注底层节点及集群的运维管理。 通过ACS集成调度、容器运行时、存储、网络等能力,降低了客户使用k8s的运维复杂度,优化了容器算力弹性及柔性使用体验。

Pod 是Kubernetes中的一个逻辑单位,它代表集群中正在运行的一个进程,是 Kubernetes 集群中的一个应用实例,由一个或者多个容器组成。

KV Cache(Key-Value缓存)是 ​​Transformer模型推理时的性能优化技术​​,专门解决自回归生成任务(如文本生成)中重复计算的效率问题。用现实中的场景比喻来理解:传统方法相当于每次从头重读整本书,而 KV Cache 相当于给书页贴上标签索引,直接定位到关键信息。比较传统方法,KV Cache的优势在于减少 40-60% 的计算量,生成 2048 token 的文本,时延从 10 秒级降至 1 秒级。但代价是内存占用上升。缓存空间随序列长度线性增长(需存储所有历史 K/V)。

推理所需显存=模型参数部分+激活参数部分+ KV Cache部分

  • 量化精度与字节数关系

    • FP16/BF16:每个参数占用 2字节

    • INT8:每个参数占用 1字节

    • INT4:每个参数占用 0.5字节

  • 激活参数部分=激活参数量 × 精度系数

  • KV Cache部分=并发数 × (输入Token数+输出Token数) × 2 × 层数 × hidden_size × Sizeof(精度系数)