自学概念整合1.0RDMA：RDMA是一种概念，在两个或者多个计算机进行通讯的时候使用DMA，从一个主机的内存直接访问

RDMA：RDMA是一种概念，在两个或者多个计算机进行通讯的时候使用DMA，从一个主机的内存直接访问另一个主机的内存。 RDMA是一种host-offload, host-bypass技术，允许应用程序(包括存储)在它们的内存空间之间直接做数据传输。具有RDMA引擎的以太网卡RNIC--而不是host--负责管理源和目标之间的可靠连接。使用RNIC的应用程序之间使用专注的QP和CQ进行通讯。

vLLM是一个专注于高性能LLM推理的工具。它能够有效地利用多核CPU和GPU资源，显著提升LLM的推理速度。vLLM的主要优势在于：

高推理速度： vLLM在推理速度方面表现出色，能够快速生成LLM的输出。
资源利用率高： vLLM能够充分利用多核CPU和GPU资源，提升资源利用率。
灵活配置： vLLM允许用户根据实际需求灵活配置参数，例如模型路径、端口号等。

ACS是以Kubernetes为使用界面的容器服务产品，提供符合容器规范的通用算力和异构算力。容器算力交付模式为Serverless形态，用户无需关注底层节点及集群的运维管理。通过ACS集成调度、容器运行时、存储、网络等能力，降低了客户使用k8s的运维复杂度，优化了容器算力弹性及柔性使用体验。

Pod 是Kubernetes中的一个逻辑单位，它代表集群中正在运行的一个进程，是 Kubernetes 集群中的一个应用实例，由一个或者多个容器组成。

KV Cache（Key-Value缓存）是 Transformer模型推理时的性能优化技术，专门解决自回归生成任务（如文本生成）中重复计算的效率问题。用现实中的场景比喻来理解：传统方法相当于每次从头重读整本书，而 KV Cache 相当于给书页贴上标签索引，直接定位到关键信息。比较传统方法，KV Cache的优势在于减少 40-60% 的计算量，生成 2048 token 的文本，时延从 10 秒级降至 1 秒级。但代价是内存占用上升。缓存空间随序列长度线性增长（需存储所有历史 K/V）。

推理所需显存=模型参数部分+激活参数部分+ KV Cache部分

量化精度与字节数关系：
- FP16/BF16：每个参数占用 2字节
- INT8：每个参数占用 1字节
- INT4：每个参数占用 0.5字节
激活参数部分=激活参数量 × 精度系数
KV Cache部分=并发数 × （输入Token数+输出Token数） × 2 × 层数 × hidden_size × Sizeof(精度系数)