llama.cpp 分布式RPC模型推理

llama.cpp 分布式RPC模型推理

llama.cpp 分布式RPC模型推理

llama.cpp 内置了一个实验性质的分布式RPC模型推理，可以把模型加载到多个不同的机器上运行，本专栏主要分析介绍llama.cpp分布式运行的原理

等 1 人订阅共8篇文章创建于2025-08-19

llama.cpp 分布式推理介绍(7) 远程后端缓冲区 (RPC Buffer)

在本章中，我们学习了 `ggml-rpc` 远程内存管理的核心——**远程后端缓冲区 (RPC Buffer)**。

2月前
98
点赞
评论

llama.cpp 分布式推理介绍(6) 张量序列化 (rpc_tensor)

在本章中，我们深入探讨了 `ggml-rpc` 实现远程计算的关键一步——**张量序列化**，通过张量序列化，我们把A机器中的张量信息传递到rpc-server进行处理。

2月前
115
点赞
评论

llama.cpp 分布式推理介绍(5) RPC 通信协议

在本章中，我们揭开了 `ggml-rpc` 客户端和服务器之间沟通的秘密——**RPC 通信协议**。

2月前
120
点赞
评论

llama.cpp 分布式推理介绍(4) RPC 服务器 (rpc_server)

在本章中，我们揭开了 `ggml-rpc` 系统另一半的神秘面纱——**RPC 服务器 (rpc_server)**。

2月前
190
点赞
评论

llama.cpp 分布式推理介绍(3) 远程过程调用后端 (RPC Backend)

在本章中，我们认识了 `ggml-rpc` 的核心交互工具——**远程过程调用后端 (RPC Backend)**。

2月前
106
点赞
评论

llama.cpp 分布式推理介绍(2) 后端注册机制 (Backend Registration)

在本章中，我们深入了解了 GGML 强大且灵活的后端注册机制。通过图示和代码函数结合，帮助大家理解rpc的后端注册机制。

2月前
107
点赞
评论

llama.cpp 分布式推理介绍(1) 远程计算设备 (RPC Device)

本章介绍ggml-rpc 的核心入门概念——远程计算设备 (RPC Device)。它是一个对远程服务器的本地抽象或代理，目的是让远程计算资源的使用像本地硬件一样简单。

2月前
107
点赞
评论

llama.cpp 分布式推理介绍(0) 整体介绍 ggml-rpc

`llama.cpp` 的分布式推理功能，是基于`ggml`内置的`ggml-rpc`功能来实现的。本文介绍ggml-rpc 整体工作原理。

2月前
166
点赞
评论