一直被当成“GPU小跟班”的机头CPU,早不是“GPU忙死我旁观、算力大活我不担“的角色了,尤其是至强处理器开启AMX技术的支持后——英特尔近期就在多个与客户及合作伙伴沟通的场合中披露了向量数据库上的多个测试数据,如:在至强®6性能核处理器上,开启AMX进行加速后,FAISSIndexFlat向量检索性能提升达3.35倍,Reranker性能也会拉到未启用时的2.31倍。还有一组基于第五代至强可扩展处理器平台的测试数据:在激活AMX加速后,其上的向量数据库的Embedding性能也可拉到未开启时的4.79倍。所有这些基于实战的数据都指向一点:至强CPU能帮GPU分担向量数据库的工作。
如果你问这有啥意义?我就得反问你:让CPU把数据预处理的“杂活”干好,让GPU更专注高价值的AI训练或推理加速,这难道不香么?
要是第四代之前的至强CPU,这种高度依赖矩阵计算能力的“杂活”它还真不太容易扛,但自从2023年开始内置了AMX(高级矩阵扩展)技术后,它还真就从从容容,游刃有余了!有人曾戏称AMX是“CPU里的TensorCore”,就是因为它天生就是为矩阵运算加速而设计的。
8个1KB二维TILE寄存器组成高速缓存区,能少跑好多内存访问的冤枉路;TMUL乘法单元一次能处理16×16矩阵块,再加上INT8、BF16和FP16低精度支持,每核心每时钟周期能完成2048次操作,是传统AVX-512技术的8倍。
这些能力不是要抢GPU风头,而是要帮GPU卸包袱:各种数据预处理,特别是向量数据库的杂活CPU接了,GPU才能专心干大事,让花在它身上的每分钱都更物有所值。
这里就要先说说数据预处理——这是AI工作的“前置准备”阶段,以前常要GPU分心兼顾。AI工作负载里的非结构化数据解析、格式转换、特征清洗,看着是“细活”,实则要高并行逻辑和高I/O吞吐,正好是机头CPU的强项。更重要的是:CPU把预处理扛了,GPU就不用在训练推理这样的核心任务和预处理这种边缘任务之间来回切换,算力与时间一点儿都不浪费。
对于向量数据库,有AMX加成的至强则把“帮GPU分担”做到了实处。向量存储、索引构建、相似度检索等流程,都由Embedding、相似度计算等组成,本质都是密集型矩阵运算——这正是AMX的拿手戏。据英特尔曾经公布的更多的测试结果:在FAISS库测试里,1,000万级向量数据集,AMX的加成让单批次查询速度快5到6.66倍。1
图片嵌入场景下,4核至强实例性能涨到2.45倍,16核实例也能提升达1.7倍。2
最关键的50万条记录检索,32核至强直接把速度提到21.9倍。3这些活儿要是扔给GPU,不光检索慢,还得挤占推理算力,整体效率得打对折。
这套“至强分担跑向量数据库+GPU专注做训练与推理”的分工机制,直接改写了AI部署的性价比。传统方案里,GPU又做预处理又跑AI算力密集型任务,就像“一人干两份活”,吞吐量上不去还容易卡壳;现在至强把向量数据库的活接稳了,AI集群整体吞吐量提升的基础上,GPU应用的投资回报还能再上层楼。
另外,基于“至强+AMX”的机头系统在AI推理上展现出的更优性价比,有越来越多的用户受到启发,开始将AI模型预处理、小参数LLM推理交给机头CPU来执行。相对的,GPU则能解放生产力,更专注做高价值的任务,算下来每一分算力都花在刀刃上。
所以别再让你的至强CPU在AI服务器中“发呆”了,用好它,让它真正做好协同的工作,能让整个AI流程跑得更快、更省、投资回报更丰厚。所谓:不能帮GPU加速向量数据库的CPU,真算不上好至强。接下来随着AMX支持更多数据类型、至强兼容高带宽内存,相信这种“协同力”还会更强。