大模型应用生产实践
业务需求分析
典型业务场景
- 自然语言处理:问答系统、文本生成、翻译、情感分析……。
Qwen、GPT - 视觉:图像分类、目标检测、图像生成。
视觉模型:通义万象、YOLO、Stable Diffussion - 语音:语音助手、语音生成、语音输入法。
语音处理模型:Qwen-Audio、CosyVoice - 多模态
多模态模型:Qwen-VL
非功能需求
性能、成本、稳定、安全
性能优化
性能指标,服务化级别目标SLO(Service Level Object)
- TTFT(Time to first token):首Token延迟。
- TPOT(Time per output token):每个Token的生成时间。
- TTFT 决定“响应速度”:用户提交请求后,系统能否快速返回第一个 Token(如“正在思考…”或回答的开头部分)直接影响感知到的“流畅性”。若 TTFT 过高(如超过 500ms),用户会感到卡顿,降低满意度。
- TPOT 影响“生成速度”:后续 Token 的生成速度(TPOT)只要保持在可接受范围内(如 50-100ms/Token),用户通常能容忍,因为阅读速度远低于生成速度(人类阅读约 200ms/词)。
| 业务场景 | 常用性能评估数据集 | TTFT 要求 | TPOT 要求 |
|---|---|---|---|
| 对话、咨询、搜索类 | ShareGPT,MMLU | 高(通常低于500ms) | 中 |
| 代码补全、编程、网页设计 | HumanEval | 高 | 高 |
| 阅读理解/总结/数据处理/信息提取 | LongBench | 低(数小时甚至数天) | 中 |
| 通用大模型(DeepSeek R1,通义大模型等) | InfoVQA 等多模态评估数据集 | TTFT < 5sec(推荐小于该值) | TPOT < 200ms(推荐小于该值) |
我理解上的要求更高指的是延迟需要更低。
如何提升系统性能
- 更快地处理请求。
方法:模型剪枝、量化、知识蒸馏。
如何让较小的模型提供高质量的推理?==》优化提示词、微调模型。 - 减少大模型的请求数、运算量。
上下文缓存:Qwen系列支持上下文缓存。
批处理:离线推理任务,例如百炼提供的批量推理API。 - 减少Token的输入和输出。
输入端优化:预处理用户的问题和意图、复杂输入生成摘要。
输出端优化:通过提示词明确要求生成简单回答、明确指定输出长度(API调用时)。
工具:小型摘要模型。
减少Token数量就是减少计算量。 - 并行处理。
数据并行:数据分片。
模型并行:不同层或不同参数分别到不同设备。
流水线并行:不同阶段在不同设备。 - 不要让大模型处理所有任务。
硬编码:输出是高度标准化的、受限的。
预先计算:当输入选项有限时,可以通过预先计算生成所有可能的响应。
使用图表、进度条或表格:而不是让LLM生成的大段文字。
传统优化技术:二分查找、哈希映射。
用户感知优化
- 流式输出
- 分块处理。将检索任务分解为多个子任务,例如按主题或数据源分块检索。
- 展示进度。
- 完善错误处理机制:重试机制、友好提示、分类错误。
- 提供用户反馈入口,持续改进。
成本优化
云上部署成本优化
模型运行时的资源需求:
- 模型参数量。
1.5B 参数(FP32精度)需要5.59GB显存。 DeepSeek-R1(671B,FP8精度)需要625GB显存。 - KV Cache占用。
用于存储注意力机制的KV对,处理长上下文时占用空间大。 - 精度设置(FP8、FP32)==》量化技术(INT8、INT4)。
合适的GPU实例?
DeepSeek-R1==》625GB;
KV Cache==》MLA(Multi-head Latent Attention);
选用ecs.ebmgn8v.48xlarge==》8*96GB。
用户并发数?==》显存的局促导致同时服务客户的能力非常有限,可限制单次请求的Token长度。
稳定性
- 降低用户请求的资源消耗:模型小型化、异步批处理、缓存高频结果。
- 自动扩缩容:弹性伸缩、函数计算;负载均衡。
- 评测基线管理。
1)建立基线模型;2)定期测试与对比;3)动态调整基线;4)融入自动化流程。 - 监控、告警:数据漂移检测、关键指标看板、日志、告警。
- 容灾设计:降级兜底方案、通用容灾(如多可用区)、定期演练测试
安全与合规
安全合规的范围
- 内容安全:针对输入、输出做检查,访问控制。
- 应用服务安全。
内容安全合规
- 文本合规检查。
规则匹配+文本分类。
文本分类可引入语义分析,语义分析包含意图识别、主题识别、实体识别、上下文理解、情感分析。例如BERT系列模型。
工具:- 面向大模型的文本审核服务:help.aliyun.com/document_de…
- 内容安全控制台:yundun.console.aliyun.com/?spm=a2c4g.…
- 图片合规检查。
图片检测:YOLO系列用于敏感物体检测、图像指纹识别技术检测相似图像(版权)、卷积神经网络检查图片内容。
文本检测:OCR光学字符识别技术识别图中文字。 工具: - 图片审核服务:help.aliyun.com/document_de… - 音频合规检查。
自动语音识别技术(ACR) 将音频转为文本,再对文本检测。 工具: - 音频审核服务:help.aliyun.com/document_de… - 视频合规检查。 工具: - 视频审核服务:help.aliyun.com/document_de…
知识库访问控制
从知识库召回的相关文本需要进行访问控制,确保仅返回用户拥有权限的内容。
应用服务安全
- 应用部署平台的安全性:权限控制、网络安全配置。
- 数据传输安全:加密传输。
- 知识库数据存储安全:数据加密、备份与恢复。
大模型备案
已上架但未完成合规手续的应用将被下架。
未上架的应用必须完成合规动作后方可上线。