大模型学习笔记-大模型应用生产实践大模型应用生产实践业务需求分析典型业务场景自然语言处理：问答系统、文本生成、翻译

大模型应用生产实践

业务需求分析

典型业务场景

自然语言处理：问答系统、文本生成、翻译、情感分析……。
Qwen、GPT
视觉：图像分类、目标检测、图像生成。
视觉模型：通义万象、YOLO、Stable Diffussion
语音：语音助手、语音生成、语音输入法。
语音处理模型：Qwen-Audio、CosyVoice
多模态
多模态模型：Qwen-VL

非功能需求

性能、成本、稳定、安全

性能优化

性能指标，服务化级别目标SLO（Service Level Object）

TTFT（Time to first token）：首Token延迟。
TPOT（Time per output token）：每个Token的生成时间。

TTFT 决定“响应速度”：用户提交请求后，系统能否快速返回第一个 Token（如“正在思考…”或回答的开头部分）直接影响感知到的“流畅性”。若 TTFT 过高（如超过 500ms），用户会感到卡顿，降低满意度。

TPOT 影响“生成速度”：后续 Token 的生成速度（TPOT）只要保持在可接受范围内（如 50-100ms/Token），用户通常能容忍，因为阅读速度远低于生成速度（人类阅读约 200ms/词）。

业务场景	常用性能评估数据集	TTFT 要求	TPOT 要求
对话、咨询、搜索类	ShareGPT，MMLU	高（通常低于500ms）	中
代码补全、编程、网页设计	HumanEval	高	高
阅读理解/总结/数据处理/信息提取	LongBench	低（数小时甚至数天）	中
通用大模型（DeepSeek R1，通义大模型等）	InfoVQA 等多模态评估数据集	TTFT < 5sec（推荐小于该值）	TPOT < 200ms（推荐小于该值）

我理解上的要求更高指的是延迟需要更低。

如何提升系统性能

更快地处理请求。
方法：模型剪枝、量化、知识蒸馏。
如何让较小的模型提供高质量的推理？==》优化提示词、微调模型。
减少大模型的请求数、运算量。
上下文缓存：Qwen系列支持上下文缓存。
批处理：离线推理任务，例如百炼提供的批量推理API。
减少Token的输入和输出。
输入端优化：预处理用户的问题和意图、复杂输入生成摘要。
输出端优化：通过提示词明确要求生成简单回答、明确指定输出长度（API调用时）。
工具：小型摘要模型。
减少Token数量就是减少计算量。
并行处理。
数据并行：数据分片。
模型并行：不同层或不同参数分别到不同设备。
流水线并行：不同阶段在不同设备。
不要让大模型处理所有任务。
硬编码：输出是高度标准化的、受限的。
预先计算：当输入选项有限时，可以通过预先计算生成所有可能的响应。
使用图表、进度条或表格：而不是让LLM生成的大段文字。
传统优化技术：二分查找、哈希映射。

用户感知优化

流式输出
分块处理。将检索任务分解为多个子任务，例如按主题或数据源分块检索。
展示进度。
完善错误处理机制：重试机制、友好提示、分类错误。
提供用户反馈入口，持续改进。

成本优化

云上部署成本优化

模型运行时的资源需求：

模型参数量。
1.5B 参数（FP32精度）需要5.59GB显存。 DeepSeek-R1（671B，FP8精度）需要625GB显存。
KV Cache占用。
用于存储注意力机制的KV对，处理长上下文时占用空间大。
精度设置（FP8、FP32）==》量化技术（INT8、INT4）。

合适的GPU实例？
DeepSeek-R1==》625GB；
KV Cache==》MLA（Multi-head Latent Attention）；
选用ecs.ebmgn8v.48xlarge==》8*96GB。

用户并发数？==》显存的局促导致同时服务客户的能力非常有限，可限制单次请求的Token长度。

稳定性

降低用户请求的资源消耗：模型小型化、异步批处理、缓存高频结果。
自动扩缩容：弹性伸缩、函数计算；负载均衡。
评测基线管理。
1）建立基线模型；2）定期测试与对比；3）动态调整基线；4）融入自动化流程。
监控、告警：数据漂移检测、关键指标看板、日志、告警。
容灾设计：降级兜底方案、通用容灾（如多可用区）、定期演练测试

安全与合规

安全合规的范围

内容安全：针对输入、输出做检查，访问控制。
应用服务安全。

内容安全合规

文本合规检查。
规则匹配+文本分类。
文本分类可引入语义分析，语义分析包含意图识别、主题识别、实体识别、上下文理解、情感分析。例如BERT系列模型。
工具：
- 面向大模型的文本审核服务：help.aliyun.com/document_de…
- 内容安全控制台：yundun.console.aliyun.com/?spm=a2c4g.…
图片合规检查。
图片检测：YOLO系列用于敏感物体检测、图像指纹识别技术检测相似图像（版权）、卷积神经网络检查图片内容。
文本检测：OCR光学字符识别技术识别图中文字。工具： - 图片审核服务：help.aliyun.com/document_de…
音频合规检查。
自动语音识别技术（ACR） 将音频转为文本，再对文本检测。工具： - 音频审核服务：help.aliyun.com/document_de…
视频合规检查。工具： - 视频审核服务：help.aliyun.com/document_de…

知识库访问控制

从知识库召回的相关文本需要进行访问控制，确保仅返回用户拥有权限的内容。

应用服务安全

应用部署平台的安全性：权限控制、网络安全配置。
数据传输安全：加密传输。
知识库数据存储安全：数据加密、备份与恢复。

大模型备案

已上架但未完成合规手续的应用将被下架。
未上架的应用必须完成合规动作后方可上线。