显存不够、算力告急、部署复杂？九章智算云带着141G显卡等3重惊喜来了！惊喜1：北京 3 区上新！141G 超大显存显卡

🔥 核心亮点速览（怕长先看这！）

❗显卡上新：北京 3 区云容器示例CCI上新 141G 显存 NVIDIA 旗舰显卡，多卡套餐可选，大模型训练不卡脖；

❗免费算力：注册就领 10 度算力，活动只剩最后 2 天，手慢无；

❗场景扩充：OCR、LLM 部署、AIGC 、强化学习等多场景预置，一键启动，新手也能快速用！

惊喜1：北京 3 区上新！141G 超大显存显卡，多卡套餐任你选，大模型训练直接起飞！

北京 3 区云容器实例CCI即将上线多种 GPU 资源套餐，支持 1/2/4/8 卡自由申请，全是 NVIDIA 最新高端旗舰显卡，不管是大模型训练还是复杂数据运算，都能 hold 住！

👉 这波显卡优势，直接戳中痛点：

● 显存翻倍，大模型不 “卡脖” ：单卡 141G 超大显存，比80G 显存提升 76%！最大单容器实例能到 8×141G=1128G，轻松支持千亿级参数大模型训练；显存带宽从 3.35TB/s 飙到 4.8TB/s，提升 43%，处理海量数据更快更稳。

● 算力升级，复杂任务秒搞定：FP16 算力提升约 10%，INT8 向量核心算力直接拉满到 3958TOPS，不管是推理还是训练，计算能力都再上一个台阶。

● 推理提速，效率翻番：拿 Llama2-70B 模型举例，上一代显卡推理速度 21800 词 / 秒，新显卡直接冲到 31700 词 / 秒，速度提升 45%！处理 70B + 大模型时，延迟还能降低 50%，等待时间大幅缩短。

● 单机跑万亿参数模型：凭借超大内存 + 超高带宽，现在单机就能运行万亿参数模型，不用再纠结多机协同的复杂配置，硬件支撑直接拉满！

惊喜2：免费算力送送送！10 度算力注册就领，活动只剩最后 2 天，手慢无！

不用等活动、不用拼手速，只要注册就能领 10 度免费算力，直接体验新显卡的超强性能！

www.alayanew.com/product/clo…

领取10度算力，从产品中心进入CCI控制台，你将会收到一个弹窗，如下

点击立即领取后去你的【费用中心】即可看到你领取到的10度算力。

惊喜3：预置场景大扩充！OCR、Deepseek、AIGC、强化学习… 一键上手，小白也能快速用！

怕部署复杂？担心不会操作？CCI 早就帮你做好了预置场景，不管是开发者还是新手，跟着步骤走，分分钟就能启动！

爆火OCR工具：Deepseek-OCR（UI 版 + API 版）

DeepSeek-OCR是由 DeepSeek 团队推出的先进视觉语言模型，专注于通过光学压缩技术高效处理长文本内容。模型采用 DeepEncoder 编码器与 DeepSeek3B-MoE 解码器的组合设计，在保证高分辨率输入的同时，显著降低了激活内存占用和视觉标记数量。

在 10 倍压缩比下，OCR 精度可达 97%；即便在 20 倍压缩比下，仍能保持约 60% 的识别准确率。DeepSeek-OCR 支持多种分辨率模式，适用于多语言文档处理，同时能够解析图表、化学公式等复杂内容，为大规模文档识别与处理提供高效可靠的解决方案。

眼馋没关系！ CCI为各位用户准备了UI版和API版，开发者或者用户均可快速上手

● UI版详细介绍见：扫描件、截图要转文字？DeepSeek-OCR 在线服务，即刻体验

● API版详细介绍见：10 倍压缩 + 97% 精度！DeepSeek-OCR 来了，你的文档处理直接进入 “秒级时代”

私有化部署DeepSeek：DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp ，这是一个实验性（Experimental）的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（一种稀疏注意力机制），针对长文本的训练和推理效率进行了探索性的优化和验证。DeepSeek Sparse Attention（DSA）首次实现了细粒度稀疏注意力机制，在几乎不影响模型输出效果的前提下，实现了长文本训练和推理效率的大幅提升。

现在北京3区就能直接部署！详细操作流程见：懒人福音！DeepSeek-V2-Exp，一键搞定部署，省时又省心

最新开源强化学习框架：verl

专为大模型强化学习设计的开源框架，主打 “低门槛 + 高性能”！能快速对接 LLM 训练需求，支持多卡 GPU 协同运算，既适配预置的 example 任务（如 GSM8K 数据集训练），也能灵活上传自有数据与模型；核心优势是简化参数配置，即使是强化学习新手，也能通过少量命令启动训练，大幅降低大模型 RLHF（基于人类反馈的强化学习）落地成本。

两步启动训练，多卡资源更适配：

在九章智算云中新建云容器实例CCI，选择任意一个带有GPU的资源（建议选择多卡），选择verl对应的镜像，启动云容器实例

执行命令启动训练example任务(或上传自有数据与模型进行训练)：

[> # 此处为示例任务

需按照实际配置的显卡数量修改下列配置

actor_rollout_ref.rollout.tensor_model_parallel_size = 2

trainer.n_gpus_per_node = 2

export HF_ENDPOINT=hfmirror.mas.zetyun.cn:8082

python3 -m verl.trainer.main_ppo \

algorithm.adv_estimator=gae \

data.train_files=$HOME/verl/data/gsm8k/train.parquet \

data.val_files=$HOME/verl/data/gsm8k/test.parquet \

data.train_batch_size=1024 \

data.max_prompt_length=512 \

data.max_response_length=512 \

data.filter_overlong_prompts=True \

data.truncation='error' \

actor_rollout_ref.model.path=deepseek-ai/deepseek-llm-7b-chat \

actor_rollout_ref.actor.optim.lr=1e-6 \

actor_rollout_ref.model.use_remove_padding=True \

actor_rollout_ref.actor.ppo_mini_batch_size=256 \

actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=16 \

actor_rollout_ref.actor.fsdp_config.param_offload=False \

actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \

actor_rollout_ref.actor.use_kl_loss=False \

actor_rollout_ref.model.enable_gradient_checkpointing=True \

actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=32 \

actor_rollout_ref.rollout.tensor_model_parallel_size=2 \

actor_rollout_ref.rollout.name=vllm \

actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \

critic.optim.lr=1e-5 \

critic.model.use_remove_padding=True \

critic.model.path=deepseek-ai/deepseek-llm-7b-chat \

critic.model.enable_gradient_checkpointing=True \

critic.ppo_micro_batch_size_per_gpu=32 \

critic.model.fsdp_config.param_offload=False \

critic.model.fsdp_config.optimizer_offload=False \

algorithm.use_kl_in_reward=False \

trainer.critic_warmup=0 \

trainer.logger='["console","wandb"]' \

trainer.project_name='verl_example_gsm8k' \

trainer.experiment_name='deepseek_llm_7b_function_rm' \

trainer.n_gpus_per_node=2 \

trainer.nnodes=1 \

trainer.save_freq=20 \

trainer.test_freq=1 \

trainer.use_legacy_worker_impl=auto \

trainer.total_epochs=15](url)

可视化AIGC工作流： ComfyUI 2步启动

面向 Stable Diffusion 的 “零代码” AIGC 工具，核心是 “节点化可视化操作”！不用写代码，拖放节点就能搭建图像生成流程，支持局部修复、区域合成、图生图等高级编辑功能；特色是实时预览效果，调整参数时能即时看到变化，减少试错时间；还能智能优化工作流，只重新计算修改过的节点，节省 GPU 算力；不管是 AIGC 新手做创意设计，还是资深开发者定制复杂生成逻辑，都能快速上手。

2步就能用：

在九章智算云中新建云容器实例CCI，选择任意一个带有GPU的资源，选择ComfyUI对应的镜像，启动云容器实例

选择ComfyUI镜像

开通15070端口，访问对外映射的地址，开始你自己的comfyUI创作之旅吧

在云容器实例管理页面点击开通端口

输入15070端口点击开通即可

可视化微调神器：LLama Factory

主打 “低门槛大模型微调” 的可视化工具，支持 Llama、DeepSeek 等主流开源模型，不用深入代码就能完成微调！核心优势是 “全流程可视化”：从数据上传、参数配置（如学习率、训练轮次）到训练监控，都能在界面操作，新手也能轻松上手；还支持多种微调策略（如 LoRA、QLoRA），能按需平衡训练效率与模型效果，既适合个人开发者快速迭代模型，也能满足企业级微调的轻量化需求。

同样只需两步就可上手使用

在九章智算云中新建云容器实例CCI，选择任意一个带有GPU的资源，选择LLama Factory对应的镜像，配置环境变量HF_ENDPOINT=hfmirror.mas.zetyun.cn:8082启动云容器实例

选择llama factory镜像

在CCI开通容器的7860端口，访问对外映射的地址，就可以开始使用UI版的LLama Factory啦

在云容器实例管理页面点击开通端口

输入7860端口点击开通即可

还有 tensorflow/paddle/pytorch 等超多预置场景，别等了！现在就上手体验 CCI 新功能！

👉 点击直达 CCI 控制台：www.alayanew.com/product/clo…

👉 关注「九章智算云」公众号，随时获取最新资源上新、算力福利、场景教程！

不管是大模型训练、AI 推理还是 AIGC 创作，这波 CCI 上新都能满足你，快冲！