Day2 大模型相关基础概念学习

121 阅读22分钟

概念

大模型(尤其是以 LLM 为代表的基础模型)的技术体系复杂且跨多个领域,核心技术要点可拆解为架构设计、预训练、模型优化、微调适配、能力增强、评估对齐六大模块,每个模块都直接决定了模型的性能、效率与落地能力。 有很多分类标准。

  • 按应用领域分类
    • 自然语言处理(NLP)模型:如 GPT-3、BERT、T5 等,主要用于文本生成、翻译、问答、情感分析等任务。
    • 计算机视觉(CV)模型:如 ResNet、EfficientNet、Vision Transformer (ViT) 等,用于图像分类、目标检测、图像分割、姿态估计等任务。
    • 多模态模型:如 CLIP、DALL・E 等,能够同时处理文本和图像等多模态数据,实现跨模态的理解和生成。比如用文字描述生成图像,用图像去生成文字描述。
    • 语音模型:如 WaveNet、Whisper 等,用于语音识别、合成、情感分析等任务。
  • 按模型架构分类
    • Transformer 模型:如 GPT、BERT、T5 等,基于 Transformer 架构,广泛应用于 NLP 和多模态任务中。
    • 卷积神经网络 (CNN)模型:如 ResNet、Inception 等,主要用于图像处理,通过卷积层自动提取图像特征。
    • 循环神经网络(RNN)模型:如 LSTM、GRU 等,适用于序列数据处理,如文本序列、语音序列等。
    • 生成对抗网络(GAN)模型:如 StyleGAN、BigGAN 等,用于图像生成和编辑,通过生成器和判别器的对抗训练来生成逼真的图像。
    • 图神经网络(GNN)模型:如 GCN、GAT 等,用于图结构数据处理,如社交网络、知识图谱等。

# 大模型的技术要点

大模型(尤其是以 LLM 为代表的基础模型)的技术体系复杂且跨多个领域,核心技术要点可拆解为架构设计、预训练、模型优化、微调适配、能力增强、评估对齐六大模块,每个模块都直接决定了模型的性能、效率与落地能力。以下从技术逻辑链(从 “底层架构” 到 “上层应用适配”)展开详细说明:

一、核心架构:大模型的 “骨架”——Transformer 及其变体

当前所有主流大模型(如 GPT、BERT、LLaMA)均基于Transformer 架构(2017 年由 Google 提出)构建,其核心是 “自注意力机制”,解决了传统 RNN(循环神经网络)难以并行计算、长文本依赖捕捉弱的问题,是大模型能支撑 “千亿级参数” 和 “长上下文” 的基础。

1. Transformer 的核心组件
  • 自注意力机制(Self-Attention) :模型能 “关注” 输入文本中不同词之间的关联(如 “小明喜欢吃苹果,他每天都买” 中,“他” 对应 “小明”),通过计算 “注意力权重” 量化词与词的依赖关系,实现对文本语义的深层理解。

衍生出多头注意力(Multi-Head Attention) :将注意力机制拆分到多个 “子空间”,同时捕捉语义、语法、位置等多维度关联(如 “银行” 在 “去银行存钱” 和 “河边的银行” 中不同含义的区分)。

  • 编码器(Encoder)与解码器(Decoder)
    • 编码器(Encoder-only) :双向注意力(能同时看到上下文),擅长 “理解类任务”(如文本分类、命名实体识别),代表模型:BERT、RoBERTa。
    • 解码器(Decoder-only) :单向注意力(只能看到前文,无法看到后文),擅长 “生成类任务”(如文本续写、对话生成),代表模型:GPT 系列、LLaMA 系列(当前主流 LLM 多采用此结构)。
    • 编码器 - 解码器(Encoder-Decoder) :兼顾理解与生成,擅长 “序列转换任务”(如机器翻译、文本摘要),代表模型:T5、BART。
2. 架构变体:适配不同场景的优化
  • 稀疏注意力(Sparse Attention) :传统自注意力计算复杂度是 “文本长度的平方”(长文本时算力爆炸),稀疏注意力仅计算 “关键词” 的注意力(如只关注相邻词或高频词),代表技术:Longformer(支持 16k 长上下文)、GPT-4 的 “局部注意力 + 全局注意力” 混合方案。
  • 混合专家模型(MoE,Mixture of Experts) :将模型拆分为多个 “专家子模型”(如 100 个小模型),输入文本仅激活部分相关专家(如 2-4 个),既降低算力消耗,又提升模型容量(如 GPT-4、PaLM-E 均采用 MoE),解决 “参数量增大与算力成本的矛盾”。

二、预训练:大模型的 “知识积累”—— 从数据到通用能力

预训练是大模型获取 “通用语言理解 / 生成能力” 的核心环节,相当于 “让模型读遍全网数据,形成基础认知”,其技术要点集中在数据处理、训练目标、算力支撑三方面。

1. 数据准备:“喂给模型的食物” 决定基础能力
  • 数据规模与多样性:需覆盖海量、多领域文本(如网页、书籍、论文、代码),规模通常达 “万亿级 Token”(1 Token≈0.75 个英文单词 / 0.5 个中文汉字),例如 GPT-3 训练数据约 5000 亿 Token,涵盖百科、新闻、小说、代码等。
  • 数据质量控制
    • 清洗:过滤低质内容(如垃圾邮件、重复文本、错误信息),避免模型学习 “噪音”;
    • 去重:减少重复数据(如同一新闻的多个副本),防止模型过度拟合;
    • 合规性:剔除侵权、违法、偏见内容(如种族歧视、虚假信息),降低模型 “价值观偏差” 风险。
2. 训练目标:“教会模型学习的任务”

预训练并非直接让模型 “回答问题”,而是通过简单任务让模型间接学习语言规律,核心目标包括:

  • 自回归语言建模(Autoregressive LM) :Decoder-only 模型的核心目标,让模型 “根据前文预测下一个词”(如输入 “今天天气很”,预测下一个词是 “好”“热”“冷”),通过海量预测任务学习语法、语义、常识(如 “太阳从” 后通常接 “东方升起”)。
  • 掩码语言建模(Masked LM) :Encoder-only 模型的核心目标,随机 “掩盖” 文本中的部分词(如 “今天 [MASK] 气很好”),让模型预测被掩盖的词,强制模型理解上下文关联。
  • 对比学习(Contrastive Learning) :多模态模型(如 CLIP)的训练目标,让 “相似内容”(如 “猫的图片” 和 “猫的文本描述”)在特征空间中距离更近,“不相似内容” 距离更远,实现跨模态对齐。
3. 算力与训练框架:“支撑万亿参数训练的基础设施”
  • 算力需求:千亿级参数模型的预训练需 “千卡 / 万卡级 GPU 集群”(如 NVIDIA A100/H100),训练周期通常达数周甚至数月,成本高达数百万至数千万美元(如 GPT-3 训练成本约 4600 万美元)。
  • 分布式训练技术:单卡无法容纳千亿参数,需通过 “模型并行”“数据并行”“流水线并行” 拆分任务:
    • 数据并行:将训练数据拆分到多卡,各卡独立计算梯度后汇总更新;
    • 模型并行:将模型的不同层 / 组件拆分到多卡(如 Encoder 层 1-10 在卡 1,11-20 在卡 2);
    • 流水线并行:将训练步骤(如 “输入处理→计算注意力→输出预测”)拆分为流水线,提升计算效率。
  • 主流框架:PyTorch Distributed、Megatron-LM(NVIDIA)、MindSpore(华为)等,提供大模型分布式训练的底层支持。

三、模型优化:大模型的 “瘦身与加速”—— 从实验室到落地

原始大模型(如千亿参数)参数量大、推理慢、耗内存,无法直接部署到手机、边缘设备等场景,需通过模型压缩、效率优化降低资源消耗,同时尽量保留性能。

1. 模型压缩技术:“减少参数但不减少能力”
  • 量化(Quantization) :将模型参数的 “高精度浮点数”(如 32 位 FP32)转换为 “低精度整数”(如 8 位 INT8、4 位 INT4),减少内存占用和计算量(如 INT8 量化可减少 75% 内存),代价是轻微精度损失。主流方案:GPTQ、AWQ(针对 LLM 的高效量化算法)。
  • 剪枝(Pruning) :移除模型中 “不重要的参数”(如注意力权重接近 0 的连接、贡献小的神经元),保留核心结构。分为 “结构化剪枝”(移除整层 / 整个注意力头)和 “非结构化剪枝”(移除单个参数),前者更易部署。
  • 知识蒸馏(Knowledge Distillation) :用 “大模型(教师模型)” 的输出指导 “小模型(学生模型)” 训练,让小模型学习大模型的 “知识”,同时保持小参数量。例如 DistilBERT(BERT 的蒸馏版,参数量减少 40%,速度提升 60%)。
2. 推理效率优化:“让模型跑得更快”
  • 动态批处理(Dynamic Batching) :将多个用户的推理请求(如不同长度的对话)动态组合成批次,利用 GPU 的并行计算能力同时处理,提升吞吐量(如 Triton Inference Server 支持动态批处理)。
  • 算子优化:对 Transformer 的核心算子(如自注意力、LayerNorm)进行硬件适配优化(如用 CUDA、TensorRT 编写高效算子),减少计算延迟(如 NVIDIA TensorRT 可将 LLM 推理速度提升 2-5 倍)。
  • 上下文缓存(Context Caching) :对话场景中,用户的历史对话(上下文)无需重复计算,缓存其特征向量,仅计算新输入的文本,大幅减少重复算力(如 ChatGPT 的对话续流优化)。

四、微调技术:大模型的 “个性化适配”—— 从通用到专用

预训练大模型具备 “通用能力”(如理解文本、生成句子),但无法直接满足 “特定任务 / 领域需求”(如医疗问诊、法律文书撰写),需通过微调让模型适配具体场景。

1. 预训练 - 微调范式(Pre-train & Fine-tune)
  • 全量微调(Full Fine-tuning) :调整模型的所有参数,适配目标任务(如用医疗论文微调 BioGPT),优点是效果好,缺点是参数量大(千亿级模型无法全量微调)、算力成本高。
  • 参数高效微调(PEFT,Parameter-Efficient Fine-Tuning) :仅调整模型的 “少量参数”(如 1%-10%),大幅降低成本,是当前主流方案:
    • LoRA(Low-Rank Adaptation):在 Transformer 的注意力层中插入 “低秩矩阵”,仅训练这些矩阵参数,其余参数冻结(如 GPT-3.5 微调仅需训练数百万参数);
    • Adapter:在模型层间插入 “小型 Adapter 模块”(如 bottleneck 结构),仅训练 Adapter 参数,保持主模型不变。
2. 关键微调类型
  • 指令微调(IFT,Instruction Fine-Tuning) :用 “指令 - 响应” 数据(如 “指令:总结下文;响应:本文主要讲了…”)微调模型,让模型理解用户指令并生成符合预期的输出(如 GPT-3.5 通过 IFT 实现强指令跟随能力)。
  • 强化学习人类反馈(RLHF,Reinforcement Learning from Human Feedback) :让模型 “对齐人类偏好” 的核心技术,分三步:
  1. supervised Fine-Tuning(SFT):用人类编写的 “高质量响应” 微调模型,得到 SFT 模型;
  2. Reward Model(RM)训练:让人类对 SFT 模型的多个输出打分,训练 “奖励模型”(判断输出是否符合人类偏好);
  3. PPO(Proximal Policy Optimization)训练:用 RM 模型的 “奖励分数” 作为反馈,通过强化学习优化 SFT 模型,让模型生成更符合人类偏好的内容(如减少冗余、避免有害输出)。
  • 领域微调(Domain Fine-Tuning) :用特定领域数据(如医疗、法律、金融文本)微调模型,提升模型在该领域的专业能力(如用病历数据微调的 Med-PaLM,在医疗问答任务上准确率远超通用 LLM)。

五、能力增强:大模型的 “扩展技能”—— 突破原生局限

原生大模型存在 “知识滞后(如无法获取 2024 年后数据)、事实错误(幻觉)、无法调用工具” 等局限,需通过技术增强扩展能力。

1. 多模态融合

让模型处理 “文本 + 图像 + 音频 + 视频” 等多模态输入,突破纯文本局限:

  • 跨模态对齐:将不同模态的特征映射到同一空间(如 CLIP 将 “文本” 和 “图像” 对齐,实现 “用文本搜图”);
  • 多模态生成:基于多模态输入生成内容(如 DALL-E 根据文本生成图像,GPT-4 根据图像 + 文本回答 “图中物体是什么”)。
2. 工具使用(Tool Calling)

让模型调用外部工具(API、数据库、搜索引擎等)解决原生能力不足的问题:

  • 流程:模型先分析用户需求(如 “查询今天北京天气”),判断需调用 “天气 API”,生成工具调用参数(如城市 = 北京,日期 = 今天),获取工具返回结果后,整理为自然语言回答;
  • 应用:Coze 平台的插件功能、GPT-4 的 Function Calling,均基于此技术实现 “联网、查数据、控设备” 等能力。
3. 检索增强生成(RAG,Retrieval-Augmented Generation)

解决大模型 “知识滞后” 和 “幻觉” 问题:

  • 流程:用户提问时,先从 “外部知识库”(如企业文档、最新新闻库)中检索相关事实性信息,将信息作为 “上下文” 输入大模型,再让模型基于检索到的事实生成回答;
  • 优势:无需重新训练模型即可更新知识(如实时获取 2024 年新闻),且回答可追溯到具体来源,减少幻觉(如回答 “2024 年世界杯冠军” 时,检索最新赛事结果后生成答案)。

六、评估与对齐:大模型的 “质量管控”—— 确保可靠可用

大模型需通过科学评估验证性能,同时通过对齐技术确保输出 “安全、合规、符合人类价值观”。

1. 模型评估
  • 通用能力评估:用标准化数据集测试模型的语言理解、推理、生成能力,如:
    • MMLU(Massive Multitask Language Understanding):测试 57 个领域的知识与推理(如数学、历史、科学);
    • GLUE(General Language Understanding Evaluation):测试文本分类、语义相似度等基础任务;
    • C-Eval:中文领域的通用能力评估数据集,覆盖人文、社科、理工等领域。
  • 专业能力评估:针对特定领域设计测试集,如医疗领域的 MedQA、法律领域的 LegalBench、代码领域的 HumanEval(测试代码生成能力)。
  • 安全性评估:测试模型是否生成有害内容(如暴力、歧视、虚假信息),常用 “对抗性测试”(如故意输入诱导性提问,观察模型是否 “上钩”)。
2. 对齐技术
  • 价值观对齐:通过 RLHF、过滤训练数据等方式,让模型符合人类主流价值观(如拒绝生成暴力内容、保持中立客观);
  • 事实对齐:通过 RAG、知识图谱融合等方式,让模型的回答与客观事实一致,减少幻觉;
  • 合规对齐:确保模型输出符合法律法规(如个人信息保护法、数据安全法),避免泄露隐私、传播违法信息。

总结:大模型技术要点的逻辑链

大模型的技术演进遵循 “架构奠基→预训练积累通用能力→优化降低部署门槛→微调适配具体场景→增强突破原生局限→评估对齐保障质量” 的逻辑。其中,Transformer 架构是基础,预训练与 RLHF是核心能力来源,模型压缩与 PEFT是落地关键,RAG 与工具使用是扩展能力的核心手段,最终通过评估与对齐确保模型可靠可用。

提示词(Prompt)

在大模型(尤其是 LLM,大语言模型)的语境中,Prompt(提示词) 是用户输入给模型的 “指令或信息”,本质是 “人与模型沟通的桥梁”—— 通过明确的文字描述,引导模型理解需求、输出符合预期的结果,相当于给模型的 “任务说明书”。

Prompt 的常见类型(按功能分)

  1. 基础指令型:直接下达简单任务,比如 “翻译‘我爱中国’成英文”“计算 15+23×4 的结果”;
  2. 角色设定型:给模型赋予特定身份,让输出更贴合场景,比如 “假设你是职场导师,分析‘新人如何快速适应团队’”;
  3. 上下文补充型:提供背景信息或参考内容,比如 “根据这段文字(附:某产品说明书片段),总结 3 个核心功能”;
  4. 格式约束型:指定输出的结构 / 格式,比如 “用分点列出‘大模型的 3 个应用场景’,每个场景配 1 个例子”。

工作流(workflow)

对prompt进一步的优化,如果直接一股脑把提示词发给大模型,他生成的效果可能并不怎么样。因此我们通过工作流的形式,一步步发prompt,并采用手段一步步整合。

Function call

为了解决LLM无法与外界系统交互的问题,OpenAI提出了一种讨巧的解决方式:

💡LLM虽然无法直接调用外部系统的API,但我们可以把外部提供的能力封装成Function,用自然语言描述Function的适用场景和参数信息:

把这些Function信息通过RAG喂给LLM,LLM就可以根据上下文返回我需要调用哪个Function,传入什么参数:

最后在Client端通过Coding的方式再去调用这些Function对应的API:

MCP

Function Call并没有完全实现外部系统API的调用,而是只让LLM识别需要调用的API Name和Param,由开发者在Client端编写额外的代码来实现API调用,那有没有可能以把这些API+额外代码封装成一个个Extension,然后支持以自然语言的方式调用呢?

在2024-11,Anthropic提出了MCP(Model Context Protocol )协议:

modelcontextprotocol.io/introductio…

  • MCP Hosts 比如Claude Desktop、IDE、AI Tools等需要和外部交互的Agent
  • MCP Clients MCP客户端连接,和MCP Server 一一对应
  • MCP Servers 实现了MCP协议的轻量级服务,作用是实现MCP和能力提供方的连接
  • Local Data Sources:本地文件、数据库
  • Remote Services: 外部服务API

以LLM调用外部系统API为例,其思路是

  • 💡每个Extension对应一个MCP Server,用于封装调用外部API的逻辑,并将返回值解析成自然语言
  • 💡MCP协议要求每个Extension定义清晰的Tools描述和参数(和Function Call一样)

在大模型领域,MCP 指的是模型上下文协议(Model Context Protocol),是由 Anthropic 公司在 2024 年推出并开源的一种协议标准。它旨在标准化应用程序如何为大型语言模型(LLMs)提供上下文信息,就如同 USB-C 接口为设备连接提供了标准化方式一样,MCP 为连接 AI 模型与不同数据源和工具提供了标准化途径。以下是关于 MCP 的详细介绍:

  • 架构与组件:MCP 采用典型的客户端 - 服务器(C/S)架构,将系统分为三个主要组件。
    • MCP Host(主机) :包括 Claude Desktop、各种 IDE(如 Cursor、Windsurf)或其他需要通过 MCP 访问资源的 AI 应用程序,是用户与 AI 交互的入口,也是协调大语言模型与外部工具通信的枢纽。
    • MCP Client(客户端) :协议客户端,与服务器保持一对一连接,负责处理 MCP 协议的通信,它将主机的自然语言指令转换为标准化协议请求,并协调 MCP 服务器执行具体操作。
    • MCP Server(服务器) :轻量级程序,负责暴露特定的数据源或工具功能,并通过标准化协议与客户端交互。
  • 通信机制:MCP 协议支持两种主要的通信机制,分别是基于标准输入输出(stdio)的本地通信和基于 Streamable HTTP 的远程通信,这两种机制都使用 JSON-RPC 2.0 格式进行消息传输,确保消息交换的一致性和可扩展性。
  • 编程模型:MCP 协议定义了四种主要的编程模型,用于不同类型的交互。
  1. 工具(Tools)

支持动态调用外部 API 或脚本。例如,开发者可在服务器中注册send_email工具,客户端调用时传入收件人、主题等参数,服务器自动调用 SMTP 接口发送邮件。

  1. 资源(Resources)

提供结构化数据访问能力。例如,数据库服务器可暴露query_table资源,客户端通过自然语言指令 “查询 2024 年 Q2 销售额超过 100 万的订单”,服务器自动解析并执行 SQL 查询。

  1. 提示(Prompts)

预定义模板优化模型输出。例如,法律服务器可提供 “合同条款解读” 提示模板,客户端调用时只需填入合同文本,服务器会自动生成结构化分析报告。

  1. 采样(Sampling)

允许服务器反向调用大模型能力。例如,数据分析服务器可请求模型生成可视化图表的描述文本,或对异常数据进行语义解释。

  • 主要功能:包括数据集成、工具集成、安全性、上下文感知、模块化与可扩展性等。它可以提供标准化接口,连接各种数据源和工具,同时采用本地服务器与数据源连接,避免敏感数据上传第三方平台,保障数据隐私。
  • 应用场景:MCP 的应用场景广泛,包括软件开发、数据分析、企业自动化、智能客服系统、内容生成平台、医疗场景、教育场景等。例如,在软件开发中,开发者可通过 MCP 让 AI 模型访问代码库,为其提供代码片段、解决代码问题等服务;在医疗场景中,通过 MCP 提供患者病史,模型可以更精准地生成诊断建议。

Computer Use——沙箱运行环境

docs.anthropic.com/en/docs/age…

为了进一步增强LLM的交互能力,Anthropic又提出了一种『Computer Use』概念,即提供一个隔离的虚拟沙箱环境让AI自动操作,结合Tools完成对虚拟计算机的操作,比如可以通过AI写代码并在这个环境运行:

Agent

解决了LLM的几个局限性问题以后,我们需要一个抽象实体将其串联起来,这就是AI Agent。

在大模型技术体系中,Agent(智能体) 是具备 “自主理解需求、拆解任务、调用工具、执行闭环” 能力的核心组件 —— 它相当于大模型的 “任务指挥官”,能让 AI 从 “被动响应单个请求” 升级为 “主动解决复杂问题”,是大模型落地复杂场景(如企业自动化、智能办公、工业运维)的关键载体。

Agent 会处理信息、做出决策,并根据前一轮的输出调整下一个行动,如此循环迭代来实现其最终目标

  • 在 Agent 中,认知架构的核心是编排层,负责维护memory、state、reasoning 和 planning
  • 使用快速发展的提示词工程(prompt)及相关框架来指导推理和规划,使 Agent 能够更有效地与环境互动并完成任务

Agent 的功能实现依赖 “分层架构”,各层各司其职又相互配合:

层级核心作用技术组件 / 示例
感知层接收用户需求,理解任务目标自然语言理解(NLU)、多模态输入(语音 / 图像解析)
决策层拆解任务、选择工具、规划步骤思维链(CoT)、任务规划算法、记忆模块
执行层调用工具、执行步骤、整合结果工具接口适配(API/SDK)、结果解析器、错误处理器

其主要能力如下四点:

  1. 任务规划能力(Task Planning)

核心是 “将模糊需求转化为清晰步骤”,避免 “一步到位” 的盲目尝试。

    • 举例:用户说 “帮我安排下周去上海的出差”,Agent 会拆解为:

① 确认出差日期(向用户追问 “具体哪几天”)→ ② 查往返机票(调用航司 API)→ ③ 订酒店(匹配 “公司协议酒店 + 靠近客户地址”)→ ④ 生成行程表(整合机票 / 酒店信息)→ ⑤ 同步到用户日历(调用日历工具)。

    • 技术支撑:依赖大模型的逻辑推理能力(如 GPT-4 的 “思维链 Chain of Thought”),或通过 “预定义工作流模板” 辅助规划。
  1. 工具调用能力(Tool Utilization)

Agent 的 “手脚”—— 通过标准化接口连接外部工具,突破大模型的原生局限(如实时数据、计算能力、物理控制)。

    • 常见工具类型:
      • 信息类:搜索引擎(Google / 百度)、数据库(TiDB/MySQL)、知识库(企业文档库);
      • 功能类:API 接口(天气、支付、邮件)、本地工具(Excel、Python 脚本)、硬件控制(智能家居、工业传感器);
      • 专业类:医疗影像分析工具、法律条款解析插件、代码调试器。
    • 关键逻辑:Agent 会根据任务类型 “自主判断是否需要调用工具”—— 比如回答 “2023 年 GDP” 需调用实时数据库,而回答 “什么是 GDP” 则直接用大模型的原生知识。
  1. 上下文记忆能力(Context Memory)

Agent 的 “记性”—— 能持续记录交互过程中的关键信息,支撑多轮连贯任务。

    • 记忆类型:
      • 短期记忆:保存当前任务的中间结果(如 “出差日期已确认是 7.10-7.12”);
      • 长期记忆:存储用户偏好或历史数据(如 “用户出差偏好靠窗座位、不选凌晨航班”“公司差旅标准是‘经济舱 + 四星酒店’”)。
    • 价值:避免重复追问(如订完机票后,订酒店时自动复用 “上海”“7.10-7.12” 等信息),让交互更自然。
  1. 反馈与迭代能力(Feedback & Iteration)

Agent 的 “自我优化机制”—— 能根据用户反馈或执行结果调整策略,避免 “一错再错”。

    • 举例:若用户对出差行程反馈 “酒店离客户公司太远”,Agent 会:

① 接收反馈→ ② 重新查询 “客户地址周边的协议酒店”→ ③ 替换原酒店订单→ ④ 再次确认用户满意度。

    • 技术支撑:通过 “强化学习(RL)” 或 “用户反馈标注” 优化工具选择逻辑(如 “下次优先匹配‘距离客户地址<3 公里’的酒店”)。