AI大语言模型 (LLM) 架构原理与核心概念解析AI大语言模型 (LLM) 架构原理与核心概念解析前言介绍大模型原

前言介绍

大模型原理	专业名词汇讲
AI 的分类	LLM、Token
LLM 是如何训练的	RAG
LLM 中的 Token	Context 、 Context Window
GPT 原理	User Prompt
神经网络	System Prompt
Temperature 与 Top P 的原理及作用	Tool
AI 产品的超能力：	MCP
联网搜索、读取文件、记忆功能	Agent、Agent Skill

半睡半躺摸了一个星期，把 AI 的基础概念捋了两遍。初看时一脸懵，再看时泪两行。

下面是 AI 基础概念的介绍，一共两个版本，算是初学者笔记，希望能够帮助大家新手入门。

版本一 AI大模型原理介绍

什么是 AI

AI的核心目标是 让机器能够执行通常需要人类智能的任务，例如：语言理解、图像识别、复杂问题解决等(1956)

早期阶段：以规则为基础的专家系统，依赖预设的逻辑和规则。【按编码规则执行】
机器学习时代：通过数据训练模型、使机器能够从数据中学习规律。【预测、数据分析】（分析房价）
深度学习时代：利用神经网络模拟人脑的复杂结构，处理更复杂的任务
大模型时代：以大规模数据和算力为基础，构建通用性强、性能卓越的AI模型

名词：神经网络

神经网络是现代人工智能的底层计算架构。

核心定义：一个受生物大脑启发、由大量计算单元（神经元）接而成、可以通过学习数据来解决问题的数学模型。

通俗说法：神经网络就是一个巨大的、可调节的 “函数机器” 。

举例理解：

1、非洲野人和特种兵（思维简单 VS 训练有素） ；

2、我是否该去看电影；

神经元简化过程：输入—> 计算 —> 输出；

真实神经网络就是成千上万个这样的神经元层层堆叠，能学会极其复杂的规则（可达到上千层）

AI的分类

分析式AI：

也称为判别式 AI，其核心任务是对已有数据进行分类、预测或决策
优势在于其高精度和高效性，但是其局限性在于仅能处理已有数据的模式，无法创造新内容

生成式AI：

专注于创造新内容，例如：文本、图像、音频等
突破在于其创造性和灵活性，但也面临数据隐私、版权保护等挑战

大模型种类

大语言模型 LLM

LLM是基于海量文本数据训练的深度学习模型，属于生成式AI的一种。它能理解和生成类似人类使用的自然语言，常见模型如：GPT、Deepseek、Qwen 等
具备强大的文本理解、摘要、翻译、问答及内容创作能力。通过上下文的串联，能进行连贯且富有逻辑的对话与写作。并且通过少量示例、可以进行下游任务的学习。

场景示例：

智能客服：聊天机器人
内容创作：生成多版本的广告文案

生图/生视频模型

专门将文字描述转换为全新的图像或视频。它们学习了图像、视频极其对应文字标签之间的关联，代表模型有 DALL-E、Midjourney、及 Sora 。
能够根据用户输入的文字提示（Prompt）, 创造出符合描述且风格的视觉内容。根据不同的概念、属性、风格，创造出前所未有的原创作品。

场景示例：

产品设计：生成人物头像 / 生成商品图
影视短剧：AI短剧

视觉识别模型

视觉识别模型让计算机能 “看懂” 并解析图像与视频内容，属于计算机视觉领域。主要任务包括图像分类、物体检测、图像分割等，模型如 YOLO、ResNet
能准确识别影像中的物体、人脸、文字或特定场景。其核心在于从像素中提取特征，并与已知模式进行比对，以完成识别、定位或追踪等任务。

场景示例：

智能制造：检测产品外观的小瑕疵，如刮痕
医疗影像分析
AI 换脸、数字人

自动驾驶模型

一套复杂的 AI 系统，整合了视觉识别、传感器融合、决策规划等多种模型。其目标是让车辆无需人类干下安全行驶，是 AI 技术的高度整合应用。
通过摄像头、激光雷达等传感器，即时感知周遭环境，识别人、车辆与交通标志。模型会预测其他物品的动态，并规划出最佳的行驶路径与操作。

场景示例：

无人配送
高级辅助驾驶

大语言模型

大语言模型是一种通用自然语言生成模型，使用大量预料数据训练，以实现生成文本、回答问题、对话生成等。

GPT 是如何训练出来的（原理）

不同语言模型的 Token 都是如何定义的

Token是大型语言模型处理文本的最小单位。

由于模型本身无法直接理解文字，因此需要将文本切分成一个个Token，再将Token转换为数字（向量）进行运算

不同的的模型使用不同的 “分词器” （ Tokennzer ）来定义 Token。

例如，对于英文 Hello World：

GPT-4o 会切分为 [“Hello“, ”World“] => 对应的 token id = [13225, 5922]

对于中文“人工智能你好啊”：

DeepSeek-R1会切分为 [“人工智能”, “你好”, “啊”] => 对应的token id = [33574, 30594, 3266]

模型的常见特殊 Token

为了让模型更好地理解文本的结构和指令，开发者会预设一些具有特殊功能的Token。

这些Token不代表具体词义，而是作为一种“标点”或“命令”存在

分隔符 (Separator Token):

用于区分不同的文本段落或角色。比如，在对话中区分用户和AI的发言，可能会用 <|user|> 和 <|assistant|> 这样的Token。

结束符 (End-of-Sentence/End-of-Text Token):

告知模型文本已经结束，可以停止生成了。常见的如 [EOS] 或 <|endoftext|>。这对于确保模型生成完整且不冗长的回答至关重要。

起始符 (Start Token):

标记序列的开始，例如 [CLS] (Classification) 或 [BOS] (Beginning of Sentence)，帮助模型准备开始处理文本

Temperature、Top P 的原理与作用

作用：控制大模型生成文本的多样性，但原理不同。

Temperature (温度)：

原理：在模型计算出下一个Token所有可能的概率分布后，Temperature会调整这个分布的“平滑度”。

高Temperature (如 1.0+): 会让低概率的Token更容易被选中，使生成结果更具创造性，可能出现不连贯的词语

低Temperature (如 0.2): 会让高概率的Token权重更大，使生成结果更稳定、更符合训练数据，但会更保守。

Top P (核采样)：

原理：它设定一个概率阈值（P），然后从高到低累加所有Token的概率，直到总和超过P为止。模型只会在这个累

加出来的“核心”词汇表中选择下一个Token。

高 Top P (如 0.9)：候选词汇表较大，结果更多样。
低 Top P (如 0.1)：候选词汇表非常小，结果更具确定性。

假设模型要完成句子：“今天天气真...”
模型预测的下一个词可能是：好(60%)、不错(30%)、糟(9%)、可乐(0.01%)。

高Temperature：会提升所有词的概率，文本更有创造力。
Top P ： 比如设置0.9，概率总和达到90%的词。这里好(60%) + 不错(30%) = 90%，所以模型只会从 “好” 和 “不错” 中选择，同时直接排除了“可乐”这种离谱的选项。

高Temperature：语言更有创造性； 高 Top P：词汇更丰富；

相比Temperature，Top P能更动态地调整候选词的数量，避免选到概率极低的离谱词汇 => 产生更高质量的文本。

AI大模型聊天产品的“超能力”

超能力1：联网搜索

当用户提问需要最新资讯时，系统会自动识别这一需求，使用 Function Call ，自动调用搜索 Tool。

并将问题转化为多个简洁的搜索关键词。接着，程序调用搜索引擎 API 获取信息。最后，这些实时信息会作为上下文提供给模型，由模型进行总结和提炼，生成精准且与时俱进的回答。

超能力2：读取文件

基于 “检索增强生成”（ RAG ）的技术，回答问题前会先在数据库中提前进行数据检索。

比如，上传一份公司财报后，提问 “ 第二季度的利润是多少？” RAG系统能精确定位到财报中相关的片段，财报数据已提前上传至公司数据可，让LLM直接使用。

当你上传一个文件（如PDF、Word文档）时，系统首先会将其内容分割成小块（Chunks）。
然后，通过 **Embedding** 技术将这些文本块转化为 数学向量，并存储在专门的 “**向量数据库**” 中。
当你针对文件内容提问时，系统会将你的问题也转化为向量，并在数据库中快速找到最相关的文本块，最后将这些文本块连同你的问题一起交给模型，生成答案。

超能力3：记忆功能（从“金鱼”到“伙伴” ）

LLM本身是无状态的，每次对话都是一次全新的互动，不记得之前的交流。

为了实现“记忆”，系统会在每次对话时，将最近的几轮问答作为背景信息一起发送给模型

=> 称为“短期记忆”或“上下文窗口”。

对于需要长期记住的关键信息，例如你的名字或偏好，系统会通过特定算法提取这些信息，
=> 将其存储在用户专属的数据库中。
=> 在后续的对话中，系统会先从数据库中读取，为模型提供更个性化的背景知识。

版本二 AI 核心概念大串联

前置：分层系统

模型层	运行时信息层	外部能力扩展层	应用执行层
Transformer	Context	Tool	Agent
LLM	Context Window	Tool Calling	Agent Skill
Tokenizer	Prompt	MCP
Token	System Prompt	RAG
	User Prompt

一、大语言模型 (LLM) 基础架构与原理

1.1 核心定义与架构

LLM全称：Large Language Model 大语言模型，基于Transformer 架构训练，是当前AI浪潮的核心引擎
Transformer 架构： 几乎所有现代大模型均基于此架构训练。该架构由Google团队在2017年的论文《Attention is all you need》中首次提出。

发展里程碑：

时间	事件	意义
2017年	Transformer 架构提出	奠定大模型技术基础
2022年底	GPT-3.5 发布	首个达到可用级别的大模型
2023年3月	GPT-4 发布	大幅提升 AI 能力天花板
2023年后	Claude、Gemini 等模型涌现	AI 赛道从 OpenAI 独角戏变为多强竞争

1.2 生成原理：文字接龙

本质：大模型本质上是一个基于概率的“文字接龙”游戏。

根据已有上下文，预测下一个最可能出现的 Token。
预测流程：

a. 接收输入文本。

b. 通过内部矩阵运算预测下一个概率最高的词。

c. 将生成的词追加到原始输入序列中。

d. 重复上述过程，直到生成特殊的结束标识符。
输出特性： 由于这种逐个词预测的机制，大模型在生成答案时呈现出 “一个词一个词” 蹦出来的视觉特征。

二、数据处理单元 Token

2.1 Token 的定义

大模型处理文本的最小单元，通过 Tokenizer（分词器）将文本切分为片段。

2.2 Tokenizer 工作机制

Tokenizer （分词器）充当人类文字与模型数字世界之间的 “ 翻译官 ” ，主要包含两个环节：

1. 编码 (Encoding)：

切分 (Splitting)：将文本拆解为最小片段（Token）。

映射 (Mapping)：将每个 Token 对应到一个唯一的数字 ID（Token ID）。

2. 解码 (Decoding)：

映射：将模型输出的 Token ID 还原为文字。（将数字转换为文字）

模型每次仅输出一个 Token，解码环节无需切分。

非等价性： Token 并不等同于单词。一个词可能被拆分为多个 Token （如 “程序员” 可能拆为 “程序” 和 “员”，“helpful” 拆为 “help” 和 “ful” ）。

数量估算：

1个 Token 平均约等于 0.75个英文单词， 1个 Token 约等于 1.5至2个汉字。

三、Context (上下文) 与 Context Window

3.1 Context (上下文)

定义：代表大模型在每次任务处理时所接收到的信息总和。
构成：包括用户问题、历史对话、系统指令 (System Prompt)、工具列表、模型已生成 Token。
作用：作为大模型的“临时记忆体”，使模型能够理解对话的前因后果。

3.2 Context Window (上下文窗口)

定义：模型能够单次容纳的最大 Token 数量上限。
量级演进：现代主流模型（如 GPT-4o, Gemini, Claude）的窗口已普遍达到 100万至200万 Token 的级别。

3.3 RAG (检索增强生成)

RAG = 检索（Retrieve） + 增强（Augment） + 生成（Generate）

突破 Context Window 限制的方案，相当于给大模型提供一个外挂知识库的技术。

从知识库中检索出一部分信息，并返还给大模型。

例如：一个外部知识库（比如公司的内部文档、最近的网页、一个PDF文件）里检索相关信息，然后把这些信息作为 “参考资料” 增强给自己的提示，最后 LLM 基于这些资料生成一个更准确、更可靠的答案。

四、Prompt 指令交互

内容定义

Prompt：提示词，给大模型的问题或指令，决定模型的输出质量。

Prompt Engineering：提示词工程，通过清晰、具体、明确的指令，提高模型的输出质量。

两种 Prompt 类型

System Prompt：系统提示词

设定者：开发者

作用：定义人设、做事规则、语言风格及禁忌。用户通常感知不到。（如：你是一个数学老师）

User Prompt：用户提示词

设定者：用户

作用：说明具体问题或任务要求。

五、外部扩展，Tool 工具

核心作用

定义：大模型调用的外部函数，使其能够感知和影响外部环境。

解决痛点：弥补大模型无法获取实时信息（如天气）、计算能力有限等弱点

工作流程：

平台发送：平台作为传话筒，将用户问题与可用工具列表（函数定义）发送给模型。
模型决策：分析需求，决定是否调用工具，并生成包含工具名和参数的指令。
平台执行：平台捕获指令，真实执行外部函数，并获取结果。
模型总结：模型拿到工具返回的数据，进行归纳总结，输出最终的人类语言。

角色分工：

大模型：选择工具、生成参数、归纳结果

工具：函数，执行具体功能（如查询天气）

平台：转发信息、执行工具调用

六、工具标准化： MCP

全程： Model Context Protocol （模型上下文协议），一套统一的工具接入规范。

本质： 理解为统一的工具接入标准，解决不同平台工具接入规范不统一的问题。

标准化： 以往每个大模型平台（OpenAI 、Google、Anthropic）的工具接入标准不一，导致开发者需重复开发。

七、Agent 智能体

Agent定义：我们把这种能够自主规划、自主调用工具，持续工作直至完成用户任务的系统叫做Agent。

特征： 具备自主规划能力。

核心能力： 多步骤推理、工具选择、流程控制。

代表作品： ClaudeCode、codeX、Gemini CLi 等

典型构建模式： ReAct （Reason + Act）、Plan and Execute 等

八、Agent Skill

本质： 一份给 Agent 阅读的说明文档（通常为 Markdown 格式），包含任务规则、执行步骤、输出格式等。

结构组成：

元数据层 (Metadata)：包含名称 (Name) 和描述 (Description)，用于 Agent 匹配判断。
指令层 (Instructions)：规定目标、执行步骤、判断逻辑、输出格式及示例 (Few-shots)。

工程规范（以 Cline 为例）：

需存放在特定目录（如 skills/）。
文件夹名称必须与技能名一致。
文件名必须固定为 SKILL.md。

例如：

——
name: go-out-checklist
descriion: 生成出门清单。当用户询问“出门要带什么/要准备什么/今天外出需要带哪些东西”时使用
——

#目标
你是一个贴心的“出门清单助手”。你的任务是根据用户所在位置的实时天气情况，告诉用户出门必须携带的物品。

#执行步骤
1.调用“定位工具”，获取用户当前所在位置的经纬度。
2.将获取到的经纬度作为参数，调用“天气工具”，一次性获取降雨情况、光照强度、空气质量和风力大小这四项数据。
3.根据天气数据结果，按照下方的“判断规则"整理出门需要携带的物品。
4.严格按照下方的“输出格式”向用户输出最终结果。

#判断规则
1.手机:无条件必带。
2.伞:当“天气工具”返回“有雨”时，必须携带。
3.帽子:当“天气工具”返回“光照强”时，必须携带。
4.口罩:当“天气工具”返回“空气质量差”时，必须携带。
5.防风外套:当“天气工具”返回“强风”时，必须携带。

九、概念总结

概念	说明
LLM	大模型
Token	大模型处理数据的最基本单元
Context	大模型每次处理任务时接受到的信息总和
Context Window	大模型的 Context 最多能够存储的 Token 量
Prompt	用户或系统当前给大模型下达的具体指令或问题
Tool	大模型用来感知和影响外部环境的函数
MCP	统一了工具接入格式的标准协议
Agent	能自主规划和调用工具、直至解决用户问题的程序
Agent Skill	给Agent看的说明文档

AI大语言模型 (LLM) 架构原理与核心概念解析

前言介绍

版本一 AI大模型原理介绍

什么是 AI

名词：神经网络

AI的分类

分析式AI：

生成式AI：

大模型种类

大语言模型 LLM

生图/生视频模型

视觉识别模型

自动驾驶模型

大语言模型

GPT 是如何训练出来的 （原理）

不同语言模型的 Token 都是如何定义的

模型的常见特殊 Token

Temperature、Top P 的原理与作用

Temperature (温度)：

Top P (核采样)：

AI大模型聊天产品的“超能力”

超能力1：联网搜索

超能力2：读取文件

超能力3：记忆功能（从“金鱼”到“伙伴” ）

版本二 AI 核心概念大串联

前置：分层系统

一、大语言模型 (LLM) 基础架构与原理

1.1 核心定义与架构

1.2 生成原理：文字接龙

二、数据处理单元 Token

2.1 Token 的定义

2.2 Tokenizer 工作机制

三、Context (上下文) 与 Context Window

3.1 Context (上下文)

3.2 Context Window (上下文窗口)

3.3 RAG (检索增强生成)

四、Prompt 指令交互

内容定义

两种 Prompt 类型

五、外部扩展，Tool 工具

六、工具标准化： MCP

七、Agent 智能体

八、Agent Skill

九、概念总结

GPT 是如何训练出来的（原理）