VERL FramewrokHybridFlow 解决问题：传统DRL模型较小，单进程可容纳计算流，但现在随着模型增

HybridFlow

解决问题：
- 传统DRL模型较小，单进程可容纳计算流，但现在随着模型增大，计算流变成了一个多进程方式（分布式训练）
- 单控制器调度开销大：需管理节点内分布式计算，仅支持参数量较小的模型
- 多控制器嵌套耦合问题：计算层与通信层深度绑定、修改单节点需重构全流程。
采用单控制流+多计算流的分层混合架构Hybrid Programming Model
- 核心范式：将训练流程抽象为数据流图
- 控制流：
  - 位于high_level，描述多个模型之间的交互逻辑（e.g. actor generation -> critic&reward model evaluation -> models update）
  - 实现：采用ray架构，通过远程过程调用 (RPC) 协调不同模型的执行顺序，并沿数据流传输数据（中间数据存储在 TensorDict [57] 中）
- 计算流
  - 位于low_level，描述单个模型角色内部计算流程（e.g. forward/backward propagation、optimizer update）
  - 实现：每个模型函数在独立进程上运行，控制消息从各控制器的 CPU 进程传递至对应 GPU，支持FSDP、Megatron-LM
- 优势：实现了控制流与计算流间的解耦，使得策略的代码切换变简单

Auto Device Mapping
- 目标：找到模型放置+设备分配方案+并行策略配置的最优组合，使得一次完整的RLHF迭代的总执行时间最小化。
- 步骤：

FSDP vs Megatron
- Megatron：组合多种并行策略（张量并行、流水线并行、数据并行、序列并行）解决单设备无法容纳的模型计算与显存问题，目标是最大化硬件利用率，适用于超大规模LLM
- FSDP：核心思想是参数完全分片（Fully Sharded），通过将模型参数、梯度、优化器状态分片存储在不同设备上，显著降低单卡显存占用，使普通硬件也能训练大模型