AI学习-扫盲篇1大模型基础认知part1，了解基础名词都是什么意思。看了也一知半解也无所谓，反正之后会反复见到反复理解

一、大模型基础认知

（一）是什么

AI 大模型是参数量巨大、计算能力强的智能模型，核心像 “会学习的大脑”—— 通过数据学规律，用公式（如 y=wx+b）和海量参数存储知识，参数量（用 B / 十亿计量，如 3B、175B）类似 “天资”，训练数据量类似 “后天努力”（如 GPT-1 用 7000 本书的数据）。

（二）能做什么

文本生成、提炼总结、问答系统、情感分析、文生图等，还能通过工具调用完成复杂任务（如查天气、写报告、做网页）。

（三）核心流程

数据（Data）：学习的 “原材料”
算法（Algorithm）：学习的 “方法”
模型（Model）：学到的 “规律集合”
预测（Predict）：用规律解决问题

二、大模型关键技术与名词

（一）基础名词

Token：模型处理文本的基本单位，像 “文字积木”，费用按 Token 计算
上下文长度：模型能 “记住” 的文本长度（如 16k Token≈8-11k 中文字），越长能处理的内容越复杂
模型参数：模型里的可调节数值，参数越大越智能，但部署成本越高（如 Deepseek 满血版部署费 200 万 +）

（二）核心技术

模型训练三阶段
- 预训练：自监督学习，让模型 “自我积累实力”
- 微调：监督学习，像 “名师指点”，适配具体需求
- 人类反馈强化学习（RLHF）：实战打磨，提升回答质量
常用优化技术
- 提示词（Prompt）：引导模型输出的输入文本，分系统提示词（设定角色 / 能力）和用户提示词
- RAG 技术：结合外部知识库，让回答更准确（适合垂直领域）
- 微调（Fine-tuning）：小规模训练，优化模型在特定任务的表现
- 模型蒸馏：把大模型（老师模型）的知识 “浓缩” 到小模型（学生模型），降低使用成本
工具与集成
- Function Calling：让模型调用第三方工具 / API（如查天气、查数据）
- MCP：连接模型和工具的协议，简化开发、提升灵活性和安全性
- AI Agent：以 LLM 为核心，具备记忆、规划、调用工具能力，能独立完成复杂目标（公式：Agent=LLM + 记忆 + 规划能力 + 工具使用）

三、大模型的问题与解决方案

（一）主要问题

幻觉：一本正经说假话（如误说鲁迅和周树人是两个人）
准确率低、知识过时（有知识截止日期，如 2024 年 7 月）
缺乏专有知识、推理过程不透明

（二）解决方案

用 RAG 技术接入最新 / 专有知识库
开启联网功能获取实时信息
通过微调、提示词工程提升准确率
用 AI Agent+Function Calling 扩展能力边界

四、大模型应用与学习路线

（一）应用部署

初创 / 中小企业：优先用 MaaS 模型服务（直接调用 API）
大企业：可基于模型服务平台构建，灵活控制
特殊行业（需数据安全）：考虑本地部署

（二）学习路线

非技术路线：用 Coze、Dify、千帆等平台，搭建工作流、发布 API，嵌入现有系统
技术路线：学习 Python、Langchain，掌握 RAG、Agent 开发，实现 API 调用与系统集成

看完之后打算拓展一下名词于是又让AI总结一下：

Token（文本基本单元）
- 简单说：模型处理文字的 “最小积木”，不是单个汉字 / 单词，可能是半个词、一个词或一个标点（比如 “湖南” 可能拆成 1 个或 2 个 Token）。
- 核心作用：模型不会直接 “读” 整句话，而是把输入文本拆成一个个 Token，再做计算推理。
- 实际影响：市面上模型都按 Token 收费（输入 + 输出的 Token 总量计费）；模型有 “Token 上限”，超了就处理不了（比如输入太长会提示 “超出上下文窗口”）。
上下文长度（Context Window）
- 简单说：模型能 “记住” 的前后文总长度，用 Token 计量，对应一定的中文字数。
- 常见规格与类比（好理解）：
  - 16k Token：约 8k-11k 中文字，相当于 1-2 篇短篇小说、20 页 Word 文档；
  - 32k Token：约 16k-22k 中文字，相当于 1 篇硕士论文摘要、40 页文档；
  - 64k Token：约 32k-45k 中文字，相当于 1 本中篇小说、80 页技术手册；
  - 128k Token：约 64k-90k 中文字，相当于《小王子》全书（约 6 万字）、160 页文档；
  - 256k Token：约 128k-180k 中文字，相当于 1.5 本《哈利波特与魔法石》（约 10 万字 / 本）。
- 实际用途：上下文越长，模型能处理的长文本越多（比如直接分析一整本书、一份长报告），不用手动拆分内容。
模型参数（Parameters）
- 简单说：模型内部的 “可调节数值”，相当于模型的 “知识储备库”，参数越多，储备的知识越丰富、处理复杂问题的能力越强。
- 单位与示例：用 “B”（Billion，十亿）计量，常见规格有 3B、32B、175B、671B，甚至万亿参数（如 GPT-4.1）；比如 GPT-3.5-Turbo 是 175B 参数，属于中大型模型。
- 双刃剑效应：
  - 优点：参数越大，模型越智能，能应对更复杂的任务（比如写学术论文、做复杂数据分析）；
  - 缺点：部署成本极高（比如 Deepseek 满血版部署费要 200 万 +）、计算速度慢、对设备算力要求高（手机、普通电脑跑不动，得用专业服务器）。
B（Billion）与模型规模
- 纯单位解释：1B=10 亿，是衡量模型参数多少的核心单位。
- 规模对应：3B（30 亿参数）属于小模型，适合手机、智能设备等低算力场景；32B-175B 属于中大型模型，适合企业日常办公、业务处理；671B 以上属于超大型模型，适合复杂科研、高端定制化需求。

（二）核心技术：模型 “怎么学”“怎么用”

1. 模型训练三阶段：从 “小白” 到 “高手”

模型不是天生就会，要经过三阶段训练，一步步升级：

训练阶段	技术类型	通俗解释	实际示例
预训练（Pre-train）	自监督学习	相当于 “闭门自学”：给模型喂海量数据（比如全网文本、书籍、论文），让它自己找规律、积累知识，不用人专门指导	GPT-1 预训练时学了 7000 本书的内容，掌握了文字逻辑、常识、基本技能
微调（Instruction Fine-turning）	监督学习	相当于 “名师指点”：人工给模型输入特定指令和标准答案，让它针对性优化，适配具体场景	想让模型回答 “魔都是哪儿”，就专门喂这类 “问题 - 答案” 数据，让它精准输出 “上海”
人类反馈强化学习（RLHF）	增强式学习	相当于 “实战打磨”：让模型先回答问题，人类给回答打分（好 / 坏 / 一般），模型根据分数调整，越练越贴合人类需求	问 “中国最美的城市是哪里”，模型初期可能只说上海、北京，经过人类反馈后，会考虑不同偏好，列出杭州、西安等更多城市

2. 常用优化技术：让模型 “更听话”“更精准”

（1）提示词工程（Prompt Engineering）

核心定义：通过设计 “输入文本”（提示词），引导模型生成想要的输出，不用改模型本身。
提示词分类：
- 系统提示词（System Prompt）：给模型定 “角色”“规则”，比如设定 “你是妈妈”“你是老板”“输出格式必须是 JSON”，模型会按设定回应（比如妈妈会催相亲，老板会提离职）；
- 用户提示词（User Prompt）：用户直接提的需求，比如 “总结这段新闻”“写一篇文案”。
常见问题：提示词太长会超出模型上下文窗口，导致无法处理，需要拆分或精简。

（2）RAG 技术（检索增强生成）

通俗理解：给模型 “挂外挂”—— 模型回答前，先从外部知识库（比如公司内部文档、行业数据、最新资讯）里检索相关信息，再结合自己的知识生成答案。
核心作用：解决模型 “知识过时”“缺乏专有知识” 的问题，比如模型知识截止到 2024 年 7 月，要查 2024 年 8 月的行业数据，就通过 RAG 从外部数据库调取，让回答更准确。
技术逻辑：先把外部知识转换成 “向量”（方便模型快速检索），模型收到问题后，先检索向量库，再结合检索结果和自身知识生成回答。

（3）微调（Fine-tuning）

通俗理解：给模型 “做专项训练”—— 针对特定任务（比如情感分析、专业领域问答），用小规模高质量数据再训练模型，让它在该任务上表现更好。
适用场景：企业有专属数据（比如医疗行业的病例、金融行业的政策文件），想让模型专门处理这类业务；或者模型在某类任务上表现差（比如写法律文书），通过微调优化。
优势：不用换模型，只花少量成本就能适配特定需求，比重新训练大模型划算得多。

（4）模型蒸馏（Model Distillation）

通俗理解：“浓缩精华”—— 把大模型（老师模型，比如 671B 参数的模型）的知识和能力，“教” 给小模型（学生模型，比如 1.5B、7B 参数的模型），让小模型有接近大模型的效果，但体积更小、速度更快。
实际案例：
- 老师模型：671B 参数的大模型（能力强但笨重）；
- 学生模型：Qwen2.5-Math-1.5B、Llama-3.1-8B 等小模型（轻便但能力弱）；
- 蒸馏后：得到 Deepseek-R1-Distill-Qwen-1.5B 等新模型，既能在手机、普通电脑上运行，又能完成数学计算、日常问答等任务。
核心价值：降低模型使用成本，让大模型的能力普及到低算力设备。

3. 工具与集成技术：让模型 “能办事”“能联动”

（1）Function Calling（函数调用）

通俗理解：让模型 “会用工具”—— 模型收到问题后，能自动调用第三方工具（比如天气 API、计算器、数据库）获取信息，再生成答案，而不是只靠自己的知识。
实际示例：问 “明天长沙的天气怎么样”，模型不会直接猜，而是调用天气 API，获取实时天气数据（多云、高温），再整理成 “明天长沙多云，温度较高，建议穿短袖” 的回答。
存在问题：实现复杂，需要给每个工具做独立接口开发，还要做权限控制、输入验证、错误处理（比如 API 调用失败怎么办）。

（2）MCP（模型通信协议）

核心定义：连接模型和工具的 “桥梁”，制定了统一规则，让模型能快速对接各种工具，不用重复开发。
核心概念：
- MCP Server：存放工具的 “服务器”，一个服务器可以有多个工具（比如同时有天气工具、邮件工具）；
- MCP Tool：具体的工具（比如查天气、发邮件、查新闻）；
- MCP Client：调用工具的 “使用者”（比如 AI Agent、一段代码）。
核心好处：
- 简化开发：写一次代码，能对接多个工具，不用为每个工具重写；
- 灵活切换：换 AI 模型或工具时，不用重新配置；
- 实时响应：保持连接活跃，能获取最新数据；
- 安全合规：有内置访问控制，符合安全规范；
- 可扩展：想加新功能，直接连新的 MCP 服务器就行。

（3）AI Agent（人工智能代理）

核心定义：以大模型为 “大脑”，具备记忆、规划、调用工具能力的智能实体，能独立完成复杂目标，不用人一步步指导。
核心公式（Lilian Weng 提出）：Agent = LLM（大模型） + memory（记忆） + planning skills（规划能力） + tool use（工具使用）。
关键能力：
- 记忆：分短期记忆（当前任务的信息）和长期记忆（之前学到的知识、之前的交互）；
- 规划：把复杂目标拆成小任务（比如 “做一份国家电投报告 + 可视化网页”，拆成 “找资料→分析→写报告→做网页→部署”）；
- 工具使用：调用 Function Calling、MCP 对接的各种工具；
- 自我反思：做完一步后，检查是否符合要求，不对就调整（比如报告漏了投资趋势，会重新检索数据补充）。
常用平台：普通人不用从零开发，可直接用 Coze 智能体平台、腾讯元器、阿里云百炼等现成平台搭建 AI Agent。到这里扫盲有点印象了，再来点内容：

3.3 模型选型核心原则

课程强调：“选择合适的模型，比盲目使用工具更重要”，具体选型需结合三大维度：

① 任务场景：写报告、做调研选搜索能力强的模型（如谷歌大模型）；智能客服选对话流畅、兼顾多语言的模型；生成图片、视频选多模态模型（如豆包、可灵、纪梦）。

② 合规与环境要求：国企、涉密场景必须选国产开源模型（如DeepSeek），避免使用国外模型导致数据泄露；个人或中小企业非涉密场景，可根据成本和效果选择商业模型。

③ 成本预算：大模型训练和使用需消耗算力，谷歌、OpenAI等商业模型按调用量收费；开源模型可本地部署，长期使用成本更低，但需投入前期部署资源。

四、大模型核心技术原理入门

4.1 模型的来源：训练流程拆解

课程通过“活体识别模型训练”的视频演示，讲解了大模型的核心生成逻辑，本质流程可总结为“编程→算力训练→生成模型”，具体步骤：

① 准备阶段：用Python编写训练代码，定义模型的网络结构（如卷积层、激活函数、Dropout层等）；准备数据集（如活体人脸图片数据集）。

② 训练阶段：运行代码，调用算力（如GPU）进行多轮训练（课程演示为50轮，实际工业级训练可能需要数百轮，耗时数天）。训练过程中，模型会不断优化参数，通过“损失值”和“精度”两个指标判断效果：损失值下降→模型误差减小；精度上升→模型预测准确率提高。

③ 生成阶段：训练完成后，生成模型文件（.model格式）和训练曲线图表，该模型可用于后续的任务（如活体识别、人脸检测）。

关键类比：训练模型就像“做饭”，Python代码是“做饭步骤”，算力是“灶台”，数据集是“食材”，模型是“做好的菜”；不同任务（如生成报告、人脸识别）只是“食材不同”，但核心流程一致。

4.2 核心技术基础：算力、数据、框架

（1）算力：大模型的“动力源泉”

算力是大模型训练和运行的核心资源，依托芯片实现，主流算力芯片分为国外和国产两类：国外以英伟达A100、H100为代表，是目前商业大模型的主流选择；国产以华为昇腾910B、寒武纪思元芯片为代表，适配国产开源模型。

行业现状：算力成本是大模型行业的核心支出，英伟达因芯片优势成为全球市值最高的公司之一；国内企业（如小米、特斯拉）正在搭建万卡级算力集群，推动大模型国产化落地。

（2）数据：大模型的“燃料”

模型的效果依赖数据质量，数据分为多种类型：文本数据（互联网文字、行业文档）、图像数据（照片、视频帧）、语音数据（语音录音）、多模态数据（文本+图像、语音+视频）。

数据处理：原始数据需经过标注、清洗才能用于训练，如数据堂等专业公司提供数据标注服务（如标注人脸特征、语音语义、行业术语）；数据量越大、覆盖场景越广，模型效果通常越好。

（3）框架：大模型的“工具包”

框架是编写训练代码、搭建模型的工具，课程后续会重点讲解两类主流框架：PyTorch（灵活性高，适合科研和入门学习）、TensorFlow（稳定性强，适合工业级部署）；此外，华为昇腾框架、百度飞桨等国产框架也会涉及。

4.3 关键概念：多模态与检索增强生成（RAG）

（1）多模态

指模型可处理多种类型的数据（文本、图像、语音、视频），课程中以“图文问答”为例演示：上传一张“人喝啤酒”的图片，输入提示词“这个人在干什么”，模型可准确识别场景并回答，这就是文本+图像的多模态交互。

应用场景：AI绘画（文本生成图像）、视频生成（文本/图像生成视频）、智能驾驶（图像+语音+文本融合处理）。

（2）检索增强生成（RAG）

核心逻辑：模型在生成内容前，先联网搜索最新、最准确的数据，再基于搜索结果组织语言，避免“胡说八道”。课程中谷歌大模型生成薪酬报告时，就是先搜索行业数据和文献，再整合生成报告，这就是RAG的典型应用。

价值：解决大模型“知识滞后”“生成内容不准确”的问题，适用于需要精准数据支撑的场景（如行业调研、政策分析）。

五、行业应用与发展趋势

5.1 核心应用场景

大模型已渗透到C端（个人用户）和B端（企业用户）多个场景，课程重点提及以下方向：

（1）C端应用

① 内容创作：AI写作（生成报告、文章）、AI绘画（可灵、MidJourney）、AI视频生成（纪梦）；② 日常工具：智能问答（豆包、ChatGPT）、图文识别、语音翻译；③ 娱乐场景：虚拟人交互、游戏角色生成。

（2）B端应用

① 金融行业：智能投研助手（分析股市数据、生成研报）、董秘问答（自动回复投资者问题）、风险控制（识别贷款欺诈）；② 制造业：设备运维AI方案（预测设备故障）、产线优化（基于数据调整生产流程）；③ 企业服务：智能客服（自动回复客户问题，降低人工成本）、内部知识库（自动整理企业文档，支持精准检索）。

5.2 行业发展趋势

① 模型轻量化：大型模型算力成本过高，未来会向轻量化、小型化发展，适配手机、嵌入式设备等低算力场景；② 多模态融合：文本、图像、语音、视频的融合处理会成为主流，实现更自然的人机交互；③ 行业垂直化：大模型会深入各个传统行业，出现制造业大模型、金融大模型、医疗大模型等垂直领域模型；④ 智能体自动化：从“人工用AI工具”向“AI自动完成任务”升级，省略工作流程中的部分节点，实现全流程自动化；⑤ 国产化替代：国产芯片、开源模型（如DeepSeek、百度文心一言、阿里通义千问）会逐步替代国外产品，保障数据安全和产业自主。

5.3 行业落地现状与挑战

落地现状：目前最成熟的场景是智能客服、内容生成、金融投研；制造业、医疗等行业仍处于试点阶段，核心瓶颈是行业数据不足、模型与场景适配度低。

核心挑战：① 成本高：算力和数据处理成本较高，中小企业难以承担；② 准确性：部分场景下模型生成内容仍存在误差，需人工校验；③ 合规性：数据隐私、模型伦理等问题需完善的政策规范。