LM 和传统 NLP 模型到底有何不同?

326 阅读6分钟

今天这篇内容,我们从系统架构、能力边界、训练方式、交互机制等多个维度,系统性梳理 LLM 与传统 NLP 的差异,为之后你深入理解 RAG、Agent、LangChain 等复杂机制打下真正的认知基础。

01

结构侧重点:从任务定制走向通用架构

在传统 NLP 时代,模型结构是为具体任务设计的,例如:

  • 文本分类任务用 Bi-LSTM 或 TextCNN**;
  • 命名实体识别用 CRF+Embedding+BiLSTM;
  • 文本匹配用 Siamese 网络结构;
  • QA 系统用 Bert+Span Head 等结构。

这类模型强调针对性,而非通用性,每个任务都要训练、调优、部署一个独立模型,彼此之间复用性差、成本高。

而 LLM(如 GPT-3、PaLM、Claude 等)则完全反其道而行之——基于统一的 Transformer 编码解码架构,通过大规模无监督语料预训练,一次训练、广泛适配、轻量微调或零样本使用

以 GPT 系列为例,其架构自《Attention Is All You Need**》之后基本未变,本质上是一个多层堆叠的自回归 Transformer Decoder,每一层都负责通过 Self-Attention 捕捉语言中的上下文依赖与结构。架构统一是 LLM 可复用性的基础。

这一结构转变,也意味着我们告别了“任务特化型模型”时代,进入了“语言即接口”的通用架构时代。

02

能力演进方向不同:静态语言处理到上下文理解

能力上的差异,是 LLM 真正带来质变的部分。

传统 NLP 模型通常只具备语义匹配、特征提取等静态能力,它们缺乏在任务执行过程中理解复杂语境并进行连续推理的能力。例如:

  • NER 模型只能识别出实体,却无法在上下文中推断指代;
  • 文本匹配模型只能算相似度,无法跨越多个中介概念进行推理连接。

而大语言模型的一个核心突破,在于in-context learning(上下文学习) emergent abilities(涌现能力)

例如 GPT-3 在论文《Language Models are Few-Shot Learners》中展示了:

  • 无需任务特化训练,仅靠上下文中的几个示例,即可完成翻译、排序、摘要、QA 等任务;
  • 模型能根据 prompt 中的结构,自发学习生成规则,具备类似“任务归纳”的能力。

更进一步,GPT-4、Gemini 等具备了“多跳推理”能力,即通过多段中间信息、进行链式思考(Chain of Thought)。这些能力无法通过传统单任务监督学习获得。

03

交互机制差异:固定输入模板到动态 Prompt 编程

传统 NLP 模型需要严格定义输入格式(特征模板),例如将问题和选项拼接为句子对、输入句子打标签、对 Token 编码等;它们的使用方式更像是 API 调用,需要开发者理解模型结构。

而 LLM 引入了 Prompt 编程范式

  • 通过自然语言控制模型行为:"请翻译以下文本"、"判断下面是否符合事实";
  • 用户只需理解任务目标,而无需了解模型细节;
  • 任务边界可在 Prompt 中动态变化。

Prompt 成为新的人机交互语言,一种“零代码指令编程”方式。这意味着 LLM 不仅是语言处理器,也是语言解释器,它解读你的任务目标并完成语义转换。

进一步发展出的 System Prompt、Instruction Tuning、Tool Use 等能力,均构建在 Prompt 表达语境的能力之上。

04

训练范式转变:单一监督到多阶段任务对齐

传统 NLP 模型训练方式为:有监督学习(Supervised Learning),即输入标注数据集进行单任务调优,例如 SQuAD、CoNLL、SNLI 等。

而 LLM 的训练方式已演化为 多阶段、任务无关到行为对齐的链式流程

  1. 预训练阶段(Pretraining)
    • 使用大规模无标签文本进行 Masked LM 或自回归预测
    • 训练目标:最大化语言建模能力,学习通用语义结构
  2. 监督微调(SFT)**
    • 使用结构化问答数据集,如 OpenAI 的 prompt+completion 数据对进行训练
    • 调整模型行为符合“任务期望”
  3. 对齐阶段(RLHF、DPO)
    • 引入偏好反馈数据,训练模型优化“人类偏好”
    • 使用 Reward Model + PPO 或直接对比优化(Direct Preference Optimization)
  4. 持续增强(Tool Use、Memory、Agent)
    • 与环境交互,持续扩展能力边界

这种训练路线体现出从“预测语言”向“理解任务意图”的转变。

05

输出形式与能力边界的拓展

传统 NLP 模型的输出是结构化标签固定选项,如句子情感是正/负/中性,实体识别是人/地/组织。

而 LLM 的输出是自由生成的语言,它可以:

  • 生成段落、摘要、邮件、代码、SQL、正则表达式;
  • 输出结构化 JSON / Markdown / 表格格式;
  • 通过 Tool Calling 调用插件、API,实现“语言+行为”闭环;

这使得 LLM 不再是一个预测器,而是一个语言接口上的决策者和组织者。它输出的不仅是内容,也是结构、动作、任务链**。

这也正是我们今天讨论 RAG、LangChain、Agent 的基础能力来源。

06

有了 LLM,传统 NLP 还“有用”吗?

看到这里你可能会问——既然 LLM 能做这么多,以前那些针对性的 NLP 模型是不是都要被淘汰了?

其实不然。在具体业务落地中,传统 NLP 模型仍然有许多不可替代的价值

  • 轻量、高效、部署灵活:一个文本分类模型往往只需几 MB,可以在边缘设备或低资源环境部署,而 LLM 的成本远远高于这个数量级;
  • 任务边界清晰、可控性强:传统模型行为确定、鲁棒性高,更适合金融、医疗等对可解释性要求极高的领域;
  • 推理速度快、延迟低:无需处理大 prompt,无需上下文构建,适用于高频率调用场景,如实时文本审核、关键词识别等;
  • 企业已有大量稳定系统基于传统 NLP 架构构建,完全替换成本高、风险大,混合部署才是常态。

更现实的是,LLM 和 NLP 并非替代关系,而是融合互补。LLM 提供通用理解与生成能力,传统 NLP 模型继续承担高效精准的子任务执行角色。真正的企业级系统往往是两者并存,取长补短。

结语

LLM 并不是“更大的 BERT”,而是一次从架构、输入方式、训练路径、推理机制到输出行为的系统跃迁。它打破了 NLP 模型“一任务一模型”的壁垒,构建了一个统一的语言理解与任务生成引擎。

当我们日后讨论 RAG 拼接上下文、LangChain 编排工作流、Agent 拆解任务并自我调度时,都必须回到一个基础共识:这些能力,都建立在 LLM 已经具备理解上下文、动态生成、语言表达和多轮逻辑组织的底层能力之上。

理解这场范式转变,才能理解我们今天所说的“AI 系统”,已经不再是 NLP 系统的堆叠优化,而是一次语言智能操作系统的重构。