汉得企业级大模型训练与管理平台(中文名灵炼,英文名H-AI TrainHub,以下简称灵炼),旨在提供企业级一站式模型训练与管理平台,覆盖数据集管理、精调、推理部署与评测等端到端能力,专注性能与安全保障,全面支撑企业AI模型开发与落地。
本文将带你快速掌握大模型推理部署全流程:从模型部署、一键接入汉得AI中台,到实时监控服务运行状态,全面实现生产级落地。
一、模型部署
通过简洁的页面操作,即可完成大模型快速部署,显著降低门槛,全面提升部署效率:
- 支持文本、向量、重排、多模态等
- 多类型模型一键部署
- 支持自动与手动两种算力调度方式、
- 及多版本推理引擎选择,灵活适配不同场景
- 支持单机多卡、多机多卡等分布式部署策略
- 支持 API Key 配置,保障服务安全与稳定
- 支持推理参数精细化自定义调优
Step 1 新建模型部署
模型服务/模型部署:新建模型部署
-选择需要部署的模型及版本
-选择需要部署的目标算力集群
-选择调度方式:
▫ 手工调度,选择加速卡
▫ 自动调度,选择节点及加速卡数量,将自动启用Ray集群在目标节点上自动调度资源
-选择合适的推理引擎及精细化控制推理参数配置:当前内置支持vLLM及Dynamo两种推理引擎,其他推理引擎支持自定义适配
Step 2 上线部署模型
确认部署配置没问题后,点击**「上线」**按钮即可立即上线。
Step 3 查看操作记录
操作记录完整展示各阶段状态与执行日志,便于全程跟踪与问题定位。
Step 4 查看部署记录
模型部署记录支持查看服务上线、下线等历史信息及当时配置,并可基于历史版本快速重新部署。
二、在线服务
Step 1 一键接入至汉得AI中台
点击**「接入模型配置」**按钮,即可将已部署成功的模型一键接入汉得AI中台,对外提供稳定在线服务。
Step 2 查看接入信息
在**「模型接入信息」**页,可查看管理已接入到汉得AI中台的模型信息。
Step 3 模型在线测试
在**「模型接入信息」页,通过「模型调用」**按钮可跳转至汉得AI中台,测试模型服务。
Step 4 查看访问信息
在「模型接入信息」页,点击「前往测试」按钮,即可查看OpenAI格式兼容的模型访问信息及调用示例。
三、模型监控
可视化监控关键指标,实时掌握 GPU 利用率、TTFT、ITL、E2E 延迟等运行状态。
结语
以上内容主要讲解了如何通过灵炼进行模型部署、在线服务、模型监控的相关能力。
更多功能细节可参阅开放平台文档,或随时联系研发团队。未来我们将持续迭代,为您带来更多AI模型开发与落地体验,期待与您交流!
💬 欢迎在评论区留言,一起探讨AI模型开发在您业务中的应用潜力~
联系我们
-
如果您想了解灵炼更详细的功能介绍和产品信息,可以查阅我们的产品文档:请在PC端打开 ➡️汉得焱牛开放平台 【文档>技术产品>汉得灵炼大模型训练与管理平台】
-
相关产品咨询或更多信息了解,欢迎联系我们 邮箱 ➡️ openhand@vip.hand-china.com
-
试用灵炼期间,若您有任何问题需要咨询,都可前往焱牛开放平台(open.hand-china.com)提反馈,或将疑问发往联系邮箱。我们有专业人员针对您的问题进行解决回复,技术精良的研发团队根据您的反馈进行应用优化。期待您的反馈,我们将用心对待每一份回应~