大模型学习笔记-大模型应用生产实践

114 阅读5分钟

大模型应用生产实践

业务需求分析

典型业务场景

  1. 自然语言处理:问答系统、文本生成、翻译、情感分析……。
    Qwen、GPT
  2. 视觉:图像分类、目标检测、图像生成。
    视觉模型:通义万象、YOLO、Stable Diffussion
  3. 语音:语音助手、语音生成、语音输入法。
    语音处理模型:Qwen-Audio、CosyVoice
  4. 多模态
    多模态模型:Qwen-VL

非功能需求

性能、成本、稳定、安全

性能优化

性能指标,服务化级别目标SLO(Service Level Object)

  • TTFT(Time to first token):首Token延迟。
  • TPOT(Time per output token):每个Token的生成时间。
  • TTFT 决定“响应速度”:用户提交请求后,系统能否快速返回第一个 Token(如“正在思考…”或回答的开头部分)直接影响感知到的“流畅性”。若 TTFT 过高(如超过 500ms),用户会感到卡顿,降低满意度。
  • TPOT 影响“生成速度”:后续 Token 的生成速度(TPOT)只要保持在可接受范围内(如 50-100ms/Token),用户通常能容忍,因为阅读速度远低于生成速度(人类阅读约 200ms/词)。
业务场景常用性能评估数据集TTFT 要求TPOT 要求
对话、咨询、搜索类ShareGPT,MMLU高(通常低于500ms)
代码补全、编程、网页设计HumanEval
阅读理解/总结/数据处理/信息提取LongBench低(数小时甚至数天)
通用大模型(DeepSeek R1,通义大模型等)InfoVQA 等多模态评估数据集TTFT < 5sec(推荐小于该值)TPOT < 200ms(推荐小于该值)

我理解上的要求更高指的是延迟需要更低

如何提升系统性能

  1. 更快地处理请求。
    方法:模型剪枝、量化、知识蒸馏。
    如何让较小的模型提供高质量的推理?==》优化提示词、微调模型。
  2. 减少大模型的请求数、运算量。
    上下文缓存:Qwen系列支持上下文缓存。
    批处理:离线推理任务,例如百炼提供的批量推理API
  3. 减少Token的输入和输出。
    输入端优化:预处理用户的问题和意图、复杂输入生成摘要
    输出端优化:通过提示词明确要求生成简单回答、明确指定输出长度(API调用时)。
    工具:小型摘要模型。
    减少Token数量就是减少计算量。
  4. 并行处理。
    数据并行:数据分片。
    模型并行:不同层或不同参数分别到不同设备。
    流水线并行:不同阶段在不同设备。
  5. 不要让大模型处理所有任务。
    硬编码:输出是高度标准化的、受限的。
    预先计算:当输入选项有限时,可以通过预先计算生成所有可能的响应。
    使用图表、进度条或表格:而不是让LLM生成的大段文字。
    传统优化技术:二分查找、哈希映射。

用户感知优化

  1. 流式输出
  2. 分块处理。将检索任务分解为多个子任务,例如按主题或数据源分块检索。
  3. 展示进度。
  4. 完善错误处理机制:重试机制、友好提示、分类错误。
  5. 提供用户反馈入口,持续改进。

成本优化

云上部署成本优化

模型运行时的资源需求:

  1. 模型参数量。
    1.5B 参数(FP32精度)需要5.59GB显存。 DeepSeek-R1(671B,FP8精度)需要625GB显存。
  2. KV Cache占用。
    用于存储注意力机制的KV对,处理长上下文时占用空间大。
  3. 精度设置(FP8、FP32)==》量化技术(INT8、INT4)。

合适的GPU实例?
DeepSeek-R1==》625GB;
KV Cache==》MLA(Multi-head Latent Attention);
选用ecs.ebmgn8v.48xlarge==》8*96GB。

用户并发数?==》显存的局促导致同时服务客户的能力非常有限,可限制单次请求的Token长度。

稳定性

  1. 降低用户请求的资源消耗:模型小型化、异步批处理、缓存高频结果。
  2. 自动扩缩容:弹性伸缩、函数计算;负载均衡。
  3. 评测基线管理。
    1)建立基线模型;2)定期测试与对比;3)动态调整基线;4)融入自动化流程。
  4. 监控、告警:数据漂移检测、关键指标看板、日志、告警。
  5. 容灾设计:降级兜底方案、通用容灾(如多可用区)、定期演练测试

安全与合规

安全合规的范围

  1. 内容安全:针对输入、输出做检查,访问控制。
  2. 应用服务安全。

内容安全合规

  1. 文本合规检查。
    规则匹配+文本分类。
    文本分类可引入语义分析,语义分析包含意图识别、主题识别、实体识别、上下文理解、情感分析。例如BERT系列模型。
    工具:
  2. 图片合规检查。
    图片检测:YOLO系列用于敏感物体检测、图像指纹识别技术检测相似图像(版权)、卷积神经网络检查图片内容。
    文本检测:OCR光学字符识别技术识别图中文字。 工具: - 图片审核服务:help.aliyun.com/document_de…
  3. 音频合规检查。
    自动语音识别技术(ACR) 将音频转为文本,再对文本检测。 工具: - 音频审核服务:help.aliyun.com/document_de…
  4. 视频合规检查。 工具: - 视频审核服务:help.aliyun.com/document_de…

知识库访问控制

从知识库召回的相关文本需要进行访问控制,确保仅返回用户拥有权限的内容。

应用服务安全

  1. 应用部署平台的安全性:权限控制、网络安全配置。
  2. 数据传输安全:加密传输。
  3. 知识库数据存储安全:数据加密、备份与恢复。

大模型备案

已上架但未完成合规手续的应用将被下架。
未上架的应用必须完成合规动作后方可上线。