前言介绍
| 大模型原理 | 专业名词汇讲 |
|---|---|
| AI 的分类 | LLM、Token |
| LLM 是如何训练的 | RAG |
| LLM 中的 Token | Context 、 Context Window |
| GPT 原理 | User Prompt |
| 神经网络 | System Prompt |
| Temperature 与 Top P 的原理及作用 | Tool |
| AI 产品的超能力: | MCP |
| 联网搜索、读取文件、记忆功能 | Agent、Agent Skill |
半睡半躺摸了一个星期,把 AI 的基础概念捋了两遍。初看时一脸懵,再看时泪两行。
下面是 AI 基础概念的介绍,一共两个版本,算是初学者笔记,希望能够帮助大家新手入门。
版本一 AI大模型原理介绍
什么是 AI
AI的核心目标是 让机器能够执行通常需要人类智能的任务, 例如:语言理解、图像识别、复杂问题解决 等(1956)
- 早期阶段:以规则为基础的专家系统,依赖预设的逻辑和规则。 【按编码规则执行】
- 机器学习时代:通过数据训练模型 、使机器能够从数据中学习规律。 【预测、数据分析】(分析房价)
- 深度学习时代:利用神经网络模拟人脑的复杂结构,处理更复杂的任务
- 大模型时代:以大规模数据和算力为基础,构建通用性强、性能卓越的AI模型
名词:神经网络
神经网络是现代人工智能的底层计算架构。
核心定义:一个受生物大脑启发、由大量计算单元(神经元)接而成、可以通过学习数据来解决问题的数学模型。
通俗说法:神经网络 就是一个巨大的、可调节的 “函数机器” 。
举例理解:
1、非洲野人 和 特种兵 (思维简单 VS 训练有素) ;
2、我是否该去看电影;
神经元简化过程:输入—> 计算 —> 输出;
真实神经网络就是成千上万个这样的神经元层层堆叠,能学会极其复杂的规则 (可达到上千层)
AI的分类
分析式AI:
- 也称为判别式 AI,其核心任务是对已有数据进行分类、预测或决策
- 优势在于 其高精度和高效性,但是其局限性在于仅能处理已有数据的模式,无法创造新内容
生成式AI:
- 专注于创造新内容,例如:文本、图像、音频 等
- 突破在于其 创造性 和 灵活性,但也面临数据隐私、版权保护等挑战
大模型种类
大语言模型 LLM
- LLM是基于海量文本数据训练的深度学习模型,属于生成式AI的一种。它能理解和生成类似人类使用的 自然语言,常见模型如:GPT、Deepseek、Qwen 等
- 具备强大的文本理解、摘要、翻译、问答及内容创作能力。通过上下文的串联,能进行连贯且富有逻辑的对话与写作。并且通过少量示例、可以进行下游任务的学习。
场景示例:
- 智能客服: 聊天机器人
- 内容创作:生成多版本的广告文案
生图/生视频模型
- 专门将文字描述转换为全新的图像或视频。它们学习了图像、视频极其对应文字标签之间的关联,代表模型有 DALL-E、Midjourney、及 Sora 。
- 能够根据用户输入的文字提示(Prompt), 创造出符合描述且风格的视觉内容。根据不同的概念、属性、风格,创造出前所未有的原创作品。
场景示例:
- 产品设计:生成人物头像 / 生成商品图
- 影视短剧:AI短剧
视觉识别模型
- 视觉识别模型让计算机能 “看懂” 并解析图像与视频内容,属于计算机视觉领域。主要任务包括 图像分类、物体检测、图像分割等,模型如 YOLO、ResNet
- 能准确识别影像中的物体、人脸、文字或特定场景。 其核心在于从像素中提取特征,并与已知模式进行比对,以完成识别、定位 或 追踪等任务。
场景示例:
- 智能制造:检测产品外观的小瑕疵,如刮痕
- 医疗影像分析
- AI 换脸 、数字人
自动驾驶模型
- 一套复杂的 AI 系统,整合了视觉识别、传感器融合、决策规划等多种模型。其目标是让车辆无需人类干下安全行驶,是 AI 技术的高度整合应用。
- 通过摄像头、激光雷达 等传感器,即时感知周遭环境,识别人、车辆与交通标志。模型会预测其他物品的动态,并规划出最佳的行驶路径与操作。
场景示例:
- 无人配送
- 高级辅助驾驶
大语言模型
大语言模型是一种通用自然语言生成模型,使用大量预料数据训练,以实现生成文本、回答问题、对话生成等。
GPT 是如何训练出来的 (原理)
不同语言模型的 Token 都是如何定义的
Token是大型语言模型处理文本的最小单位。
由于模型本身无法直接理解文字,因此需要将文本切分成一个个Token,再将Token转换为数字(向量)进行运算
不同的的模型使用不同的 “分词器” ( Tokennzer )来定义 Token。
例如,对于英文 Hello World:
GPT-4o 会切分为 [“Hello“, ”World“] => 对应的 token id = [13225, 5922]
对于中文“人工智能你好啊”:
DeepSeek-R1会切分为 [“人工智能”, “你好”, “啊”] => 对应的token id = [33574, 30594, 3266]
模型的常见特殊 Token
为了让模型更好地理解文本的结构和指令,开发者会预设一些具有特殊功能的Token。
这些Token不代表具体词义,而是作为一种“标点”或“命令”存在
- 分隔符 (Separator Token):
用于区分不同的文本段落或角色。比如,在对话中区分用户和AI的发言,可能会用 <|user|> 和 <|assistant|> 这样的Token。
- 结束符 (End-of-Sentence/End-of-Text Token):
告知模型文本已经结束,可以停止生成了。常见的如 [EOS] 或 <|endoftext|>。这对于确保模型生成完整且不冗长的回答至关重要。
- 起始符 (Start Token):
标记序列的开始,例如 [CLS] (Classification) 或 [BOS] (Beginning of Sentence),帮助模型准备开始处理文本
Temperature、Top P 的原理与作用
作用:控制大模型生成文本的多样性,但原理不同。
Temperature (温度):
原理:在模型计算出下一个Token所有可能的概率分布后,Temperature会调整这个分布的“平滑度”。
高Temperature (如 1.0+): 会让低概率的Token更容易被选中,使生成结果更具创造性,可能出现不连贯的词语
低Temperature (如 0.2): 会让高概率的Token权重更大,使生成结果更稳定、更符合训练数据,但会更保守。
Top P (核采样):
原理:它设定一个概率阈值(P),然后从高到低累加所有Token的概率,直到总和超过P为止。模型只会在这个累
加出来的“核心”词汇表中选择下一个Token。
- 高 Top P (如 0.9):候选词汇表较大,结果更多样。
- 低 Top P (如 0.1):候选词汇表非常小,结果更具确定性。
假设模型要完成句子:“今天天气真...”
模型预测的下一个词可能是:好(60%)、不错(30%)、糟(9%)、可乐(0.01%)。
高Temperature:会提升所有词的概率,文本更有创造力。
Top P : 比如设置0.9,概率总和达到90%的词。这里好(60%) + 不错(30%) = 90%,所以模型只会从 “好” 和 “不错” 中选择,同时直接排除了“可乐”这种离谱的选项。
高Temperature:语言更有创造性; 高 Top P:词汇更丰富;
相比Temperature,Top P能更动态地调整候选词的数量,避免选到概率极低的离谱词汇 => 产生更高质量的文本。
AI大模型聊天产品的“超能力”
超能力1:联网搜索
当用户提问需要最新资讯时,系统会自动识别这一需求,使用 Function Call ,自动调用搜索 Tool。
并将问题转化为多个简洁的搜索关键词。接着,程序调用搜索引擎 API 获取信息。 最后,这些实时信息会作为上下文提供给模型,由模型进行总结和提炼,生成精准且与时俱进的回答。
超能力2:读取文件
基于 “检索增强生成”( RAG )的技术,回答问题前会先在数据库中提前进行数据检索。
比如,上传一份公司财报后,提问 “ 第二季度的利润是多少?” RAG系统能精确定位到财报中相关的片段,财报数据已提前上传至公司数据可,让LLM直接使用。
当你上传一个文件(如PDF、Word文档)时,系统首先会将其内容分割成小块(Chunks)。
然后,通过 **Embedding** 技术将这些文本块转化为 数学向量,并存储在专门的 “**向量数据库**” 中。
当你针对文件内容提问时,系统会将你的问题也转化为向量,并在数据库中快速找到最相关的文本块,最后将这些文本块连同你的问题一起交给模型,生成答案。
超能力3:记忆功能(从“金鱼”到“伙伴” )
LLM本身是无状态的,每次对话都是一次全新的互动,不记得之前的交流。
为了实现“记忆”,系统会在每次对话时,将最近的几轮问答作为背景信息一起发送给模型
=> 称为“短期记忆”或“上下文窗口”。
对于需要长期记住的关键信息,例如你的名字或偏好,系统会通过特定算法提取这些信息,
=> 将其存储在用户专属的数据库中。
=> 在后续的对话中,系统会先从数据库中读取,为模型提供更个性化的背景知识。
版本二 AI 核心概念大串联
前置:分层系统
| 模型层 | 运行时信息层 | 外部能力扩展层 | 应用执行层 |
|---|---|---|---|
| Transformer | Context | Tool | Agent |
| LLM | Context Window | Tool Calling | Agent Skill |
| Tokenizer | Prompt | MCP | |
| Token | System Prompt | RAG | |
| User Prompt |
一、大语言模型 (LLM) 基础架构与原理
1.1 核心定义与架构
-
LLM全称:Large Language Model 大语言模型,基于Transformer 架构训练,是当前AI浪潮的核心引擎
-
Transformer 架构: 几乎所有现代大模型均基于此架构训练。该架构由Google团队在2017年的论文《Attention is all you need》中首次提出。
-
发展里程碑:
时间 事件 意义 2017年 Transformer 架构提出 奠定大模型技术基础 2022年底 GPT-3.5 发布 首个达到可用级别的大模型 2023年3月 GPT-4 发布 大幅提升 AI 能力天花板 2023年后 Claude、Gemini 等模型涌现 AI 赛道从 OpenAI 独角戏变为多强竞争
1.2 生成原理:文字接龙
-
本质:大模型本质上是一个基于概率的“文字接龙”游戏。
根据已有上下文,预测下一个最可能出现的 Token。
-
预测流程:
a. 接收输入文本。
b. 通过内部矩阵运算预测下一个概率最高的词。
c. 将生成的词追加到原始输入序列中。
d. 重复上述过程,直到生成特殊的结束标识符。
-
输出特性: 由于这种逐个词预测的机制,大模型在生成答案时呈现出 “一个词一个词” 蹦出来的视觉特征。
二、数据处理单元 Token
2.1 Token 的定义
大模型处理文本的最小单元,通过 Tokenizer(分词器)将文本切分为片段。
2.2 Tokenizer 工作机制
Tokenizer (分词器)充当人类文字与模型数字世界之间的 “ 翻译官 ” ,主要包含两个环节:
1. 编码 (Encoding):
切分 (Splitting):将文本拆解为最小片段(Token)。
映射 (Mapping):将每个 Token 对应到一个唯一的数字 ID(Token ID)。
2. 解码 (Decoding):
映射:将模型输出的 Token ID 还原为文字。(将数字转换为文字)
模型每次仅输出一个 Token,解码环节无需切分。
非等价性: Token 并不等同于单词。一个词可能被拆分为多个 Token (如 “程序员” 可能拆为 “程序” 和 “员”,“helpful” 拆为 “help” 和 “ful” )。
数量估算:
1个 Token 平均约等于 0.75个英文单词, 1个 Token 约等于 1.5至2个汉字。
三、Context (上下文) 与 Context Window
3.1 Context (上下文)
- 定义:代表大模型在每次任务处理时所接收到的信息总和。
- 构成:包括用户问题、历史对话、系统指令 (System Prompt)、工具列表、模型已生成 Token。
- 作用:作为大模型的“临时记忆体”,使模型能够理解对话的前因后果。
3.2 Context Window (上下文窗口)
- 定义:模型能够单次容纳的最大 Token 数量上限。
- 量级演进:现代主流模型(如 GPT-4o, Gemini, Claude)的窗口已普遍达到 100万至200万 Token 的级别。
3.3 RAG (检索增强生成)
RAG = 检索(Retrieve) + 增强(Augment) + 生成(Generate)
突破 Context Window 限制的方案,相当于给大模型提供一个外挂知识库的技术。
从知识库中检索出一部分信息,并返还给大模型。
例如:一个外部知识库 (比如 公司的内部文档、最近的网页、一个PDF文件)里检索相关信息,然后把这些信息作为 “参考资料” 增强给自己的提示,最后 LLM 基于这些资料生成一个更准确、更可靠的答案。
四、Prompt 指令交互
内容定义
Prompt:提示词,给大模型的问题或指令,决定模型的输出质量。
Prompt Engineering:提示词工程,通过清晰、具体、明确的指令,提高模型的输出质量。
两种 Prompt 类型
System Prompt:系统提示词
设定者:开发者
作用:定义人设、做事规则、语言风格及禁忌。用户通常感知不到。(如:你是一个数学老师)
User Prompt:用户提示词
设定者:用户
作用:说明具体问题或任务要求。
五、外部扩展,Tool 工具
核心作用
定义:大模型调用的外部函数,使其能够感知和影响外部环境。
解决痛点:弥补大模型无法获取实时信息(如天气)、计算能力有限等弱点
工作流程:
- 平台发送:平台作为传话筒,将用户问题与可用工具列表(函数定义)发送给模型。
- 模型决策:分析需求,决定是否调用工具,并生成包含工具名和参数的指令。
- 平台执行:平台捕获指令,真实执行外部函数,并获取结果。
- 模型总结:模型拿到工具返回的数据,进行归纳总结,输出最终的人类语言。
角色分工:
大模型:选择工具、生成参数、归纳结果
工具:函数,执行具体功能(如查询天气)
平台:转发信息、执行工具调用
六、工具标准化: MCP
全程: Model Context Protocol (模型上下文协议),一套统一的工具接入规范。
本质: 理解为统一的工具接入标准,解决不同平台工具接入规范不统一的问题。
标准化: 以往每个大模型平台(OpenAI 、Google、Anthropic)的工具接入标准不一,导致开发者需重复开发。
七、Agent 智能体
Agent定义:我们把这种 能够自主规划、自主调用工具,持续工作直至完成用户任务的系统 叫做Agent。
特征: 具备自主规划能力。
核心能力: 多步骤推理、工具选择、流程控制。
代表作品: ClaudeCode、codeX、Gemini CLi 等
典型构建模式: ReAct (Reason + Act) 、Plan and Execute 等
八、Agent Skill
本质: 一份给 Agent 阅读的说明文档(通常为 Markdown 格式),包含任务规则、执行步骤、输出格式等。
结构组成:
- 元数据层 (Metadata):包含名称 (Name) 和描述 (Description),用于 Agent 匹配判断。
- 指令层 (Instructions):规定目标、执行步骤、判断逻辑、输出格式及示例 (Few-shots)。
工程规范(以 Cline 为例):
- 需存放在特定目录(如
skills/)。 - 文件夹名称必须与技能名一致。
- 文件名必须固定为
SKILL.md。
例如:
——
name: go-out-checklist
descriion: 生成出门清单。当用户询问“出门要带什么/要准备什么/今天外出需要带哪些东西”时使用
——
#目标
你是一个贴心的“出门清单助手”。你的任务是根据用户所在位置的实时天气情况,告诉用户出门必须携带的物品。
#执行步骤
1.调用“定位工具”,获取用户当前所在位置的经纬度。
2.将获取到的经纬度作为参数,调用“天气工具”,一次性获取降雨情况、光照强度、空气质量和风力大小这四项数据。
3.根据天气数据结果,按照下方的“判断规则"整理出门需要携带的物品。
4.严格按照下方的“输出格式”向用户输出最终结果。
#判断规则
1.手机:无条件必带。
2.伞:当“天气工具”返回“有雨”时,必须携带。
3.帽子:当“天气工具”返回“光照强”时,必须携带。
4.口罩:当“天气工具”返回“空气质量差”时,必须携带。
5.防风外套:当“天气工具”返回“强风”时,必须携带。
九、概念总结
| 概念 | 说明 |
|---|---|
| LLM | 大模型 |
| Token | 大模型处理数据的最基本单元 |
| Context | 大模型每次处理任务时接受到的信息总和 |
| Context Window | 大模型的 Context 最多能够存储的 Token 量 |
| Prompt | 用户或系统当前给大模型下达的具体指令或问题 |
| Tool | 大模型用来感知和影响外部环境的函数 |
| MCP | 统一了工具接入格式的标准协议 |
| Agent | 能自主规划和调用工具、直至解决用户问题的程序 |
| Agent Skill | 给Agent看的说明文档 |