显存不够、算力告急、部署复杂?九章智算云带着141G显卡等3重惊喜来了!

59 阅读7分钟

🔥 核心亮点速览(怕长先看这!)

❗显卡上新:北京 3 区云容器示例CCI上新 141G 显存 NVIDIA 旗舰显卡,多卡套餐可选,大模型训练不卡脖;

❗免费算力:注册就领 10 度算力,活动只剩最后 2 天,手慢无;

❗场景扩充:OCR、LLM 部署、AIGC 、强化学习等多场景预置,一键启动,新手也能快速用!

惊喜1:北京 3 区上新!141G 超大显存显卡,多卡套餐任你选,大模型训练直接起飞!

北京 3 区云容器实例CCI即将上线多种 GPU 资源套餐,支持 1/2/4/8 卡自由申请,全是 NVIDIA 最新高端旗舰显卡,不管是大模型训练还是复杂数据运算,都能 hold 住!

👉 这波显卡优势,直接戳中痛点:

● 显存翻倍,大模型不 “卡脖”单卡 141G 超大显存,比80G 显存提升 76%!最大单容器实例能到 8×141G=1128G,轻松支持千亿级参数大模型训练;显存带宽从 3.35TB/s 飙到 4.8TB/s,提升 43%,处理海量数据更快更稳。

● 算力升级,复杂任务秒搞定:FP16 算力提升约 10%,INT8 向量核心算力直接拉满到 3958TOPS,不管是推理还是训练,计算能力都再上一个台阶。

● 推理提速,效率翻番:拿 Llama2-70B 模型举例,上一代显卡推理速度 21800 词 / 秒,新显卡直接冲到 31700 词 / 秒,速度提升 45%!处理 70B + 大模型时,延迟还能降低 50%,等待时间大幅缩短。

● 单机跑万亿参数模型:凭借超大内存 + 超高带宽,现在单机就能运行万亿参数模型,不用再纠结多机协同的复杂配置,硬件支撑直接拉满!

惊喜2:免费算力送送送!10 度算力注册就领,活动只剩最后 2 天,手慢无!

不用等活动、不用拼手速,只要注册就能领 10 度免费算力,直接体验新显卡的超强性能!

  1. 注册/登录:访问九章智算云

www.alayanew.com/product/clo…

  1. 领取10度算力,从产品中心进入CCI控制台,你将会收到一个弹窗,如下

  1. 点击立即领取后去你的【费用中心】即可看到你领取到的10度算力。

惊喜3:预置场景大扩充!OCR、Deepseek、AIGC、强化学习… 一键上手,小白也能快速用!

怕部署复杂?担心不会操作?CCI 早就帮你做好了预置场景,不管是开发者还是新手,跟着步骤走,分分钟就能启动!

爆火OCR工具:Deepseek-OCR(UI 版 + API 版)

DeepSeek-OCR是由 DeepSeek 团队推出的先进视觉语言模型,专注于通过光学压缩技术高效处理长文本内容。模型采用 DeepEncoder 编码器与 DeepSeek3B-MoE 解码器的组合设计,在保证高分辨率输入的同时,显著降低了激活内存占用和视觉标记数量。

在 10 倍压缩比下,OCR 精度可达 97%;即便在 20 倍压缩比下,仍能保持约 60% 的识别准确率。DeepSeek-OCR 支持多种分辨率模式,适用于多语言文档处理,同时能够解析图表、化学公式等复杂内容,为大规模文档识别与处理提供高效可靠的解决方案。

眼馋没关系! CCI为各位用户准备了UI版和API版,开发者或者用户均可快速上手

● UI版详细介绍见:扫描件、截图要转文字?DeepSeek-OCR 在线服务,即刻体验

● API版详细介绍见:10 倍压缩 + 97% 精度!DeepSeek-OCR 来了,你的文档处理直接进入 “秒级时代”

私有化部署DeepSeek:DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp ,这是一个实验性(Experimental)的版本。作为迈向新一代架构的中间步骤,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。

现在北京3区就能直接部署!详细操作流程见:懒人福音!DeepSeek-V2-Exp,一键搞定部署,省时又省心

最新开源强化学习框架:verl

专为大模型强化学习设计的开源框架,主打 “低门槛 + 高性能”!能快速对接 LLM 训练需求,支持多卡 GPU 协同运算,既适配预置的 example 任务(如 GSM8K 数据集训练),也能灵活上传自有数据与模型;核心优势是简化参数配置,即使是强化学习新手,也能通过少量命令启动训练,大幅降低大模型 RLHF(基于人类反馈的强化学习)落地成本。

两步启动训练,多卡资源更适配:

  1. 在九章智算云中新建云容器实例CCI,选择任意一个带有GPU的资源(建议选择多卡),选择verl对应的镜像,启动云容器实例

  1. 执行命令启动训练example任务(或上传自有数据与模型进行训练):

[> # 此处为示例任务

需按照实际配置的显卡数量修改下列配置

actor_rollout_ref.rollout.tensor_model_parallel_size = 2

trainer.n_gpus_per_node = 2

export HF_ENDPOINT=hfmirror.mas.zetyun.cn:8082

python3 -m verl.trainer.main_ppo \

algorithm.adv_estimator=gae \

data.train_files=$HOME/verl/data/gsm8k/train.parquet \

data.val_files=$HOME/verl/data/gsm8k/test.parquet \

data.train_batch_size=1024 \

data.max_prompt_length=512 \

data.max_response_length=512 \

data.filter_overlong_prompts=True \

data.truncation='error' \

actor_rollout_ref.model.path=deepseek-ai/deepseek-llm-7b-chat \

actor_rollout_ref.actor.optim.lr=1e-6 \

actor_rollout_ref.model.use_remove_padding=True \

actor_rollout_ref.actor.ppo_mini_batch_size=256 \

actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=16 \

actor_rollout_ref.actor.fsdp_config.param_offload=False \

actor_rollout_ref.actor.fsdp_config.optimizer_offload=False \

actor_rollout_ref.actor.use_kl_loss=False \

actor_rollout_ref.model.enable_gradient_checkpointing=True \

actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=32 \

actor_rollout_ref.rollout.tensor_model_parallel_size=2 \

actor_rollout_ref.rollout.name=vllm \

actor_rollout_ref.rollout.gpu_memory_utilization=0.4 \

critic.optim.lr=1e-5 \

critic.model.use_remove_padding=True \

critic.model.path=deepseek-ai/deepseek-llm-7b-chat \

critic.model.enable_gradient_checkpointing=True \

critic.ppo_micro_batch_size_per_gpu=32 \

critic.model.fsdp_config.param_offload=False \

critic.model.fsdp_config.optimizer_offload=False \

algorithm.use_kl_in_reward=False \

trainer.critic_warmup=0 \

trainer.logger='["console","wandb"]' \

trainer.project_name='verl_example_gsm8k' \

trainer.experiment_name='deepseek_llm_7b_function_rm' \

trainer.n_gpus_per_node=2 \

trainer.nnodes=1 \

trainer.save_freq=20 \

trainer.test_freq=1 \

trainer.use_legacy_worker_impl=auto \

trainer.total_epochs=15](url)

可视化AIGC工作流: ComfyUI 2步启动

面向 Stable Diffusion 的 “零代码” AIGC 工具,核心是 “节点化可视化操作”!不用写代码,拖放节点就能搭建图像生成流程,支持局部修复、区域合成、图生图等高级编辑功能;特色是实时预览效果,调整参数时能即时看到变化,减少试错时间;还能智能优化工作流,只重新计算修改过的节点,节省 GPU 算力;不管是 AIGC 新手做创意设计,还是资深开发者定制复杂生成逻辑,都能快速上手。

2步就能用:

  1. 在九章智算云中新建云容器实例CCI,选择任意一个带有GPU的资源,选择ComfyUI对应的镜像,启动云容器实例

选择ComfyUI镜像

  1. 开通15070端口,访问对外映射的地址,开始你自己的comfyUI创作之旅吧

在云容器实例管理页面点击开通端口

输入15070端口点击开通即可

可视化微调神器:LLama Factory

主打 “低门槛大模型微调” 的可视化工具,支持 Llama、DeepSeek 等主流开源模型,不用深入代码就能完成微调!核心优势是 “全流程可视化”:从数据上传、参数配置(如学习率、训练轮次)到训练监控,都能在界面操作,新手也能轻松上手;还支持多种微调策略(如 LoRA、QLoRA),能按需平衡训练效率与模型效果,既适合个人开发者快速迭代模型,也能满足企业级微调的轻量化需求。

同样只需两步就可上手使用

  1. 在九章智算云中新建云容器实例CCI,选择任意一个带有GPU的资源,选择LLama Factory对应的镜像,配置环境变量HF_ENDPOINT=hfmirror.mas.zetyun.cn:8082启动云容器实例

选择llama factory镜像

  1. 在CCI开通容器的7860端口,访问对外映射的地址,就可以开始使用UI版的LLama Factory啦

在云容器实例管理页面点击开通端口

输入7860端口点击开通即可

还有 tensorflow/paddle/pytorch 等超多预置场景,别等了!现在就上手体验 CCI 新功能!

👉 点击直达 CCI 控制台:www.alayanew.com/product/clo…

👉 关注「九章智算云」公众号,随时获取最新资源上新、算力福利、场景教程!

不管是大模型训练、AI 推理还是 AIGC 创作,这波 CCI 上新都能满足你,快冲!