存储不够用？镜像不会保存？那是你还没学会这招！用 CCI 跑模型时，你是不是也被这俩问题卡过？ 1. 自带 50G 存

用 CCI 跑模型时，你是不是也被这俩问题卡过？

1. 自带 50G 存储根本不够用，下一个大模型就直接满了，数据删也不是、留也不是；

2. 单卡调完环境想迁到多卡，结果镜像不会存，之前的配置全白费，又得从头装…

别慌！今天就给大家一套「数据不丢 + 环境复用」的解决方案，从开通配置到多卡迁移，一步一步跟着走就行～

核心要点：

1. 使用平台的大容量存储进行持久化，无需担心存储不够！也不用担心容器释放后数据消失！

2. 使用平台的镜像仓库，管理私有镜像仓库，随时把想要的配置拿出来用！

1. 先搞定 2 个关键前置：大容量存储 + 镜像仓库

这俩是解决问题的核心 —— 存储负责 “持久化存数据”，镜像仓库负责 “保存配置”，先开了再开发，后续少踩坑！

● 大容量存储：数据再也不怕丢，再也没有容量焦虑

○ 操作路径：找到「存储管理」→ 点击「开通新存储」；

○ 关键选择：选对应的存储类型（按项目需求）、填需要的容量（比如模型大就多开点），点开通；

○ 放心点：开通后在存储列表能直接看到，后续不够用还能随时扩缩容，容器关了或释放了，里面的数据也不会消失！

● 私有镜像仓库：环境配置随用随取

○ 操作路径：进入「AI 资源」→ 找到「镜像仓库」→ 选择「私有镜像」→ 点击「去开通」；

○ 关键选择：选好需要的容量和对应的智算中心，确认开通；

○ 优势：后续调好的环境存成镜像，下次不管是单卡还是多卡，直接调镜像就能用，不用重复装依赖！

Step1.1 开通大容量存储

● 点击开通新存储：

● 选择需要的存储类型以及存储容量，点击开通：

● 开通后即可查看到开通的存储，可随时进行扩缩容和管理

Step1.2: 开通镜像仓库

● 找到AI资源 - 镜像仓库 - 私有镜像，点击去开通：

● 选择想要开通的容量和智算中心，点击开通：

● 开通后可随时进行管理和调整：

2. 从 0 到 1 开发：0卡开发 → 单卡微调 → 8 卡训练全流程

Step2.1: 开通一个0卡的云容器实例，进入云容器实例

● 进入 CCI 控制台，点击「创建新云容器实例」：

● 填基本信息（比如实例名称）、选资源规格（刚开始用 0 卡 / 1 卡足够）：

填入基本信息、选择资源，选择预置镜像，即可开通CCI（此处选择的预置强化学习镜像verl）

● 开通后即可查看到，并且可通过Jupyter/web terminal/ssh等方式访问：

Step2.2 进入挂载的大容量存储、将代码与模型等保存在里面

● 进入实例后，直接把代码、模型文件移动到「userdata 目录」，即可实现持久化存储。

在「userdata 目录」下的数据，容器实例关机或释放均不会被删除：

同时在大容量存储中也可查看到相关数据

Step2.3 开始安装相关环境

● 按照实际情况配置相关环境，如python，npm等

Step2.4 更换1卡资源，重新进入容器实例

● 先将容器实例关机，关机后重新点击开机

放心，关机只释放资源，数据不会删；释放实例才会删除数据。另外，关机了之后的容器实例不计费哦，不用着急，慢慢操作~

● 点击「开机」，弹框里选「调整资源规格」，把显卡改成 1 卡；

● 开机后进入容器，输入nvidia-smi，能看到显卡信息就说明没问题了：

Step2.5 启动单卡训练/微调

● 执行指令开始训练（以此verl镜像为例，用户可根据实际代码情况开始）

# 配置环境变量
export HF_ENDPOINT=http://hfmirror.mas.zetyun.cn:8082
# 安装verl包
cd /root/userdata/verl
pip3 install --no-deps -e .
 
# 启动训练任务，指定单卡运行
python3 -m verl.trainer.main_ppo \
        algorithm.adv_estimator=gae \
        data.train_files=$HOME/verl/data/gsm8k/train.parquet \
        data.val_files=$HOME/verl/data/gsm8k/test.parquet \
        data.train_batch_size=1024 \
        data.max_prompt_length=512 \
        data.max_response_length=512 \
        data.filter_overlong_prompts=True \
        data.truncation='error' \
        actor_rollout_ref.model.path=deepseek-ai/deepseek-llm-7b-chat \
        actor_rollout_ref.actor.optim.lr=1e-6 \
        actor_rollout_ref.model.use_remove_padding=True \
        actor_rollout_ref.actor.ppo_mini_batch_size=256 \
        actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=16 \
        actor_rollout_ref.actor.fsdp_config.param_offload=False \
        actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
        actor_rollout_ref.actor.use_kl_loss=False \
        actor_rollout_ref.model.enable_gradient_checkpointing=True \
        actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=32 \
        actor_rollout_ref.rollout.tensor_model_parallel_size=1 \
        actor_rollout_ref.rollout.name=vllm \
        actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
        critic.optim.lr=1e-5 \
        critic.model.use_remove_padding=True \
        critic.model.path=deepseek-ai/deepseek-llm-7b-chat \
        critic.model.enable_gradient_checkpointing=True \
        critic.ppo_micro_batch_size_per_gpu=32 \
        critic.model.fsdp_config.param_offload=False \
        critic.model.fsdp_config.optimizer_offload=False \
        algorithm.use_kl_in_reward=False \
        trainer.critic_warmup=0 \
        trainer.logger='["console","wandb"]' \
        trainer.project_name='verl_example_gsm8k' \
        trainer.experiment_name='deepseek_llm_7b_function_rm' \
        trainer.n_gpus_per_node=1 \
        trainer.nnodes=1 \
        trainer.save_freq=20 \
        trainer.test_freq=1 \
        trainer.use_legacy_worker_impl=auto \
        trainer.total_epochs=15

Step2.6 （可选）保存镜像

● 确保流程已通的情况下，可手动保存镜像，为下次用户使用做准备。回到实例列表，找到当前实例，点击「保存镜像」：

● 填好镜像名称（比如 test_verl）和标签（方便区分版本），确认保存

● 保存成功后，在「AI 资源→镜像仓库→私有镜像」里就能看到。

Step2.7 使用8卡资源，重新进入容器实例

● 此时有两种方式均可更换为8卡资源

方法1：开通新的云容器实例，选择刚才保存的test_verl镜像（参考Step2.1）	方法2：修改现有容器实例（参考Step2.4）

Step2.8 启动8卡训练

# 启动8卡训练任务，修改部分配置
python3 -m verl.trainer.main_ppo \
        algorithm.adv_estimator=gae \
        data.train_files=$HOME/verl/data/gsm8k/train.parquet \
        data.val_files=$HOME/verl/data/gsm8k/test.parquet \
        data.train_batch_size=1024 \
        data.max_prompt_length=512 \
        data.max_response_length=512 \
        data.filter_overlong_prompts=True \
        data.truncation='error' \
        actor_rollout_ref.model.path=deepseek-ai/deepseek-llm-7b-chat \
        actor_rollout_ref.actor.optim.lr=1e-6 \
        actor_rollout_ref.model.use_remove_padding=True \
        actor_rollout_ref.actor.ppo_mini_batch_size=256 \
        actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=16 \
        actor_rollout_ref.actor.fsdp_config.param_offload=False \
        actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \
        actor_rollout_ref.actor.use_kl_loss=False \
        actor_rollout_ref.model.enable_gradient_checkpointing=True \
        actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=32 \
        actor_rollout_ref.rollout.tensor_model_parallel_size=8 \
        actor_rollout_ref.rollout.name=vllm \
        actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \
        critic.optim.lr=1e-5 \
        critic.model.use_remove_padding=True \
        critic.model.path=deepseek-ai/deepseek-llm-7b-chat \
        critic.model.enable_gradient_checkpointing=True \
        critic.ppo_micro_batch_size_per_gpu=32 \
        critic.model.fsdp_config.param_offload=False \
        critic.model.fsdp_config.optimizer_offload=False \
        algorithm.use_kl_in_reward=False \
        trainer.critic_warmup=0 \
        trainer.logger='["console","wandb"]' \
        trainer.project_name='verl_example_gsm8k' \
        trainer.experiment_name='deepseek_llm_7b_function_rm' \
        trainer.n_gpus_per_node=8 \
        trainer.nnodes=1 \
        trainer.save_freq=20 \
        trainer.test_freq=1 \
        trainer.use_legacy_worker_impl=auto \
        trainer.total_epochs=15

3. 最后总结：这套流程的核心优势

● 数据不丢：大容量存储 + userdata 目录，容器怎么折腾都不怕数据没了；

● 环境复用：私有镜像仓库存配置，单卡→多卡迁移不用重装依赖；

● 灵活调整：存储能扩、显卡能换，按项目需求随时改。

如果操作中遇到某个步骤卡壳，评论区留言，咱们一起解决～

4. 双十一活动惊喜来袭

另外九章智算云双十一活动正在进行中，3杯咖啡的钱就可以买到20度算力，足够：

● 在 H卡上运行约 7.8小时（H卡实例约 2.56度/小时）

● 足够完成一次 Llama3-8B LoRA 微调

● 或部署一个 Qwen-VL 多模态推理服务并压测一整天

● 甚至跑通一个完整的 AI Agent 工作流 demo

如何购买：

1. 点击链接进入官网：www.alayanew.com/?id=online

（建议把链接复制到PC端浏览器进入官网）

进入官网后点击如图所示的【立即购买】即可。可选择微信/支付宝/对公账号支付。

✳记得先登录后购买，在官网右上角选择登录/注册，或者直接点此链接登录/注册：

www.alayanew.com/backend/reg…

活动时间：2025年11月3日-12月2日

算力有效期：购买次日后30天内有效