AI学习-扫盲篇1

18 阅读17分钟

一、大模型基础认知

(一)是什么

AI 大模型是参数量巨大、计算能力强的智能模型,核心像 “会学习的大脑”—— 通过数据学规律,用公式(如 y=wx+b)和海量参数存储知识,参数量(用 B / 十亿计量,如 3B、175B)类似 “天资”,训练数据量类似 “后天努力”(如 GPT-1 用 7000 本书的数据)。

(二)能做什么

文本生成、提炼总结、问答系统、情感分析、文生图等,还能通过工具调用完成复杂任务(如查天气、写报告、做网页)。

(三)核心流程

  1. 数据(Data):学习的 “原材料”
  2. 算法(Algorithm):学习的 “方法”
  3. 模型(Model):学到的 “规律集合”
  4. 预测(Predict):用规律解决问题

二、大模型关键技术与名词

(一)基础名词

  1. Token:模型处理文本的基本单位,像 “文字积木”,费用按 Token 计算
  2. 上下文长度:模型能 “记住” 的文本长度(如 16k Token≈8-11k 中文字),越长能处理的内容越复杂
  3. 模型参数:模型里的可调节数值,参数越大越智能,但部署成本越高(如 Deepseek 满血版部署费 200 万 +)

(二)核心技术

  1. 模型训练三阶段

    • 预训练:自监督学习,让模型 “自我积累实力”
    • 微调:监督学习,像 “名师指点”,适配具体需求
    • 人类反馈强化学习(RLHF):实战打磨,提升回答质量
  2. 常用优化技术

    • 提示词(Prompt):引导模型输出的输入文本,分系统提示词(设定角色 / 能力)和用户提示词
    • RAG 技术:结合外部知识库,让回答更准确(适合垂直领域)
    • 微调(Fine-tuning):小规模训练,优化模型在特定任务的表现
    • 模型蒸馏:把大模型(老师模型)的知识 “浓缩” 到小模型(学生模型),降低使用成本
  3. 工具与集成

    • Function Calling:让模型调用第三方工具 / API(如查天气、查数据)
    • MCP:连接模型和工具的协议,简化开发、提升灵活性和安全性
    • AI Agent:以 LLM 为核心,具备记忆、规划、调用工具能力,能独立完成复杂目标(公式:Agent=LLM + 记忆 + 规划能力 + 工具使用)

三、大模型的问题与解决方案

(一)主要问题

  • 幻觉:一本正经说假话(如误说鲁迅和周树人是两个人)
  • 准确率低、知识过时(有知识截止日期,如 2024 年 7 月)
  • 缺乏专有知识、推理过程不透明

(二)解决方案

  • 用 RAG 技术接入最新 / 专有知识库
  • 开启联网功能获取实时信息
  • 通过微调、提示词工程提升准确率
  • 用 AI Agent+Function Calling 扩展能力边界

四、大模型应用与学习路线

(一)应用部署

  1. 初创 / 中小企业:优先用 MaaS 模型服务(直接调用 API)
  2. 大企业:可基于模型服务平台构建,灵活控制
  3. 特殊行业(需数据安全):考虑本地部署

(二)学习路线

  1. 非技术路线:用 Coze、Dify、千帆等平台,搭建工作流、发布 API,嵌入现有系统
  2. 技术路线:学习 Python、Langchain,掌握 RAG、Agent 开发,实现 API 调用与系统集成

看完之后打算拓展一下名词于是又让AI总结一下:

  1. Token(文本基本单元)

    • 简单说:模型处理文字的 “最小积木”,不是单个汉字 / 单词,可能是半个词、一个词或一个标点(比如 “湖南” 可能拆成 1 个或 2 个 Token)。
    • 核心作用:模型不会直接 “读” 整句话,而是把输入文本拆成一个个 Token,再做计算推理。
    • 实际影响:市面上模型都按 Token 收费(输入 + 输出的 Token 总量计费);模型有 “Token 上限”,超了就处理不了(比如输入太长会提示 “超出上下文窗口”)。
  2. 上下文长度(Context Window)

    • 简单说:模型能 “记住” 的前后文总长度,用 Token 计量,对应一定的中文字数。

    • 常见规格与类比(好理解):

      • 16k Token:约 8k-11k 中文字,相当于 1-2 篇短篇小说、20 页 Word 文档;
      • 32k Token:约 16k-22k 中文字,相当于 1 篇硕士论文摘要、40 页文档;
      • 64k Token:约 32k-45k 中文字,相当于 1 本中篇小说、80 页技术手册;
      • 128k Token:约 64k-90k 中文字,相当于《小王子》全书(约 6 万字)、160 页文档;
      • 256k Token:约 128k-180k 中文字,相当于 1.5 本《哈利波特与魔法石》(约 10 万字 / 本)。
    • 实际用途:上下文越长,模型能处理的长文本越多(比如直接分析一整本书、一份长报告),不用手动拆分内容。

  3. 模型参数(Parameters)

    • 简单说:模型内部的 “可调节数值”,相当于模型的 “知识储备库”,参数越多,储备的知识越丰富、处理复杂问题的能力越强。

    • 单位与示例:用 “B”(Billion,十亿)计量,常见规格有 3B、32B、175B、671B,甚至万亿参数(如 GPT-4.1);比如 GPT-3.5-Turbo 是 175B 参数,属于中大型模型。

    • 双刃剑效应:

      • 优点:参数越大,模型越智能,能应对更复杂的任务(比如写学术论文、做复杂数据分析);
      • 缺点:部署成本极高(比如 Deepseek 满血版部署费要 200 万 +)、计算速度慢、对设备算力要求高(手机、普通电脑跑不动,得用专业服务器)。
  4. B(Billion)与模型规模

    • 纯单位解释:1B=10 亿,是衡量模型参数多少的核心单位。
    • 规模对应:3B(30 亿参数)属于小模型,适合手机、智能设备等低算力场景;32B-175B 属于中大型模型,适合企业日常办公、业务处理;671B 以上属于超大型模型,适合复杂科研、高端定制化需求。

(二)核心技术:模型 “怎么学”“怎么用”

1. 模型训练三阶段:从 “小白” 到 “高手”

模型不是天生就会,要经过三阶段训练,一步步升级:

训练阶段技术类型通俗解释实际示例
预训练(Pre-train)自监督学习相当于 “闭门自学”:给模型喂海量数据(比如全网文本、书籍、论文),让它自己找规律、积累知识,不用人专门指导GPT-1 预训练时学了 7000 本书的内容,掌握了文字逻辑、常识、基本技能
微调(Instruction Fine-turning)监督学习相当于 “名师指点”:人工给模型输入特定指令和标准答案,让它针对性优化,适配具体场景想让模型回答 “魔都是哪儿”,就专门喂这类 “问题 - 答案” 数据,让它精准输出 “上海”
人类反馈强化学习(RLHF)增强式学习相当于 “实战打磨”:让模型先回答问题,人类给回答打分(好 / 坏 / 一般),模型根据分数调整,越练越贴合人类需求问 “中国最美的城市是哪里”,模型初期可能只说上海、北京,经过人类反馈后,会考虑不同偏好,列出杭州、西安等更多城市

2. 常用优化技术:让模型 “更听话”“更精准”

(1)提示词工程(Prompt Engineering)
  • 核心定义:通过设计 “输入文本”(提示词),引导模型生成想要的输出,不用改模型本身。

  • 提示词分类:

    • 系统提示词(System Prompt):给模型定 “角色”“规则”,比如设定 “你是妈妈”“你是老板”“输出格式必须是 JSON”,模型会按设定回应(比如妈妈会催相亲,老板会提离职);
    • 用户提示词(User Prompt):用户直接提的需求,比如 “总结这段新闻”“写一篇文案”。
  • 常见问题:提示词太长会超出模型上下文窗口,导致无法处理,需要拆分或精简。

(2)RAG 技术(检索增强生成)
  • 通俗理解:给模型 “挂外挂”—— 模型回答前,先从外部知识库(比如公司内部文档、行业数据、最新资讯)里检索相关信息,再结合自己的知识生成答案。
  • 核心作用:解决模型 “知识过时”“缺乏专有知识” 的问题,比如模型知识截止到 2024 年 7 月,要查 2024 年 8 月的行业数据,就通过 RAG 从外部数据库调取,让回答更准确。
  • 技术逻辑:先把外部知识转换成 “向量”(方便模型快速检索),模型收到问题后,先检索向量库,再结合检索结果和自身知识生成回答。
(3)微调(Fine-tuning)
  • 通俗理解:给模型 “做专项训练”—— 针对特定任务(比如情感分析、专业领域问答),用小规模高质量数据再训练模型,让它在该任务上表现更好。
  • 适用场景:企业有专属数据(比如医疗行业的病例、金融行业的政策文件),想让模型专门处理这类业务;或者模型在某类任务上表现差(比如写法律文书),通过微调优化。
  • 优势:不用换模型,只花少量成本就能适配特定需求,比重新训练大模型划算得多。
(4)模型蒸馏(Model Distillation)
  • 通俗理解:“浓缩精华”—— 把大模型(老师模型,比如 671B 参数的模型)的知识和能力,“教” 给小模型(学生模型,比如 1.5B、7B 参数的模型),让小模型有接近大模型的效果,但体积更小、速度更快。

  • 实际案例:

    • 老师模型:671B 参数的大模型(能力强但笨重);
    • 学生模型:Qwen2.5-Math-1.5B、Llama-3.1-8B 等小模型(轻便但能力弱);
    • 蒸馏后:得到 Deepseek-R1-Distill-Qwen-1.5B 等新模型,既能在手机、普通电脑上运行,又能完成数学计算、日常问答等任务。
  • 核心价值:降低模型使用成本,让大模型的能力普及到低算力设备。

3. 工具与集成技术:让模型 “能办事”“能联动”

(1)Function Calling(函数调用)
  • 通俗理解:让模型 “会用工具”—— 模型收到问题后,能自动调用第三方工具(比如天气 API、计算器、数据库)获取信息,再生成答案,而不是只靠自己的知识。
  • 实际示例:问 “明天长沙的天气怎么样”,模型不会直接猜,而是调用天气 API,获取实时天气数据(多云、高温),再整理成 “明天长沙多云,温度较高,建议穿短袖” 的回答。
  • 存在问题:实现复杂,需要给每个工具做独立接口开发,还要做权限控制、输入验证、错误处理(比如 API 调用失败怎么办)。
(2)MCP(模型通信协议)
  • 核心定义:连接模型和工具的 “桥梁”,制定了统一规则,让模型能快速对接各种工具,不用重复开发。

  • 核心概念:

    • MCP Server:存放工具的 “服务器”,一个服务器可以有多个工具(比如同时有天气工具、邮件工具);
    • MCP Tool:具体的工具(比如查天气、发邮件、查新闻);
    • MCP Client:调用工具的 “使用者”(比如 AI Agent、一段代码)。
  • 核心好处:

    • 简化开发:写一次代码,能对接多个工具,不用为每个工具重写;
    • 灵活切换:换 AI 模型或工具时,不用重新配置;
    • 实时响应:保持连接活跃,能获取最新数据;
    • 安全合规:有内置访问控制,符合安全规范;
    • 可扩展:想加新功能,直接连新的 MCP 服务器就行。
(3)AI Agent(人工智能代理)
  • 核心定义:以大模型为 “大脑”,具备记忆、规划、调用工具能力的智能实体,能独立完成复杂目标,不用人一步步指导。

  • 核心公式(Lilian Weng 提出):Agent = LLM(大模型) + memory(记忆) + planning skills(规划能力) + tool use(工具使用)。

  • 关键能力:

    • 记忆:分短期记忆(当前任务的信息)和长期记忆(之前学到的知识、之前的交互);
    • 规划:把复杂目标拆成小任务(比如 “做一份国家电投报告 + 可视化网页”,拆成 “找资料→分析→写报告→做网页→部署”);
    • 工具使用:调用 Function Calling、MCP 对接的各种工具;
    • 自我反思:做完一步后,检查是否符合要求,不对就调整(比如报告漏了投资趋势,会重新检索数据补充)。
  • 常用平台:普通人不用从零开发,可直接用 Coze 智能体平台、腾讯元器、阿里云百炼等现成平台搭建 AI Agent。 到这里扫盲有点印象了,再来点内容:

3.3 模型选型核心原则

课程强调:“选择合适的模型,比盲目使用工具更重要”,具体选型需结合三大维度:

① 任务场景:写报告、做调研选搜索能力强的模型(如谷歌大模型);智能客服选对话流畅、兼顾多语言的模型;生成图片、视频选多模态模型(如豆包、可灵、纪梦)。

② 合规与环境要求:国企、涉密场景必须选国产开源模型(如DeepSeek),避免使用国外模型导致数据泄露;个人或中小企业非涉密场景,可根据成本和效果选择商业模型。

③ 成本预算:大模型训练和使用需消耗算力,谷歌、OpenAI等商业模型按调用量收费;开源模型可本地部署,长期使用成本更低,但需投入前期部署资源。

四、大模型核心技术原理入门

4.1 模型的来源:训练流程拆解

课程通过“活体识别模型训练”的视频演示,讲解了大模型的核心生成逻辑,本质流程可总结为“编程→算力训练→生成模型”,具体步骤:

① 准备阶段:用Python编写训练代码,定义模型的网络结构(如卷积层、激活函数、Dropout层等);准备数据集(如活体人脸图片数据集)。

② 训练阶段:运行代码,调用算力(如GPU)进行多轮训练(课程演示为50轮,实际工业级训练可能需要数百轮,耗时数天)。训练过程中,模型会不断优化参数,通过“损失值”和“精度”两个指标判断效果:损失值下降→模型误差减小;精度上升→模型预测准确率提高。

③ 生成阶段:训练完成后,生成模型文件(.model格式)和训练曲线图表,该模型可用于后续的任务(如活体识别、人脸检测)。

关键类比:训练模型就像“做饭”,Python代码是“做饭步骤”,算力是“灶台”,数据集是“食材”,模型是“做好的菜”;不同任务(如生成报告、人脸识别)只是“食材不同”,但核心流程一致。

4.2 核心技术基础:算力、数据、框架

(1)算力:大模型的“动力源泉”

算力是大模型训练和运行的核心资源,依托芯片实现,主流算力芯片分为国外和国产两类:国外以英伟达A100、H100为代表,是目前商业大模型的主流选择;国产以华为昇腾910B、寒武纪思元芯片为代表,适配国产开源模型。

行业现状:算力成本是大模型行业的核心支出,英伟达因芯片优势成为全球市值最高的公司之一;国内企业(如小米、特斯拉)正在搭建万卡级算力集群,推动大模型国产化落地。

(2)数据:大模型的“燃料”

模型的效果依赖数据质量,数据分为多种类型:文本数据(互联网文字、行业文档)、图像数据(照片、视频帧)、语音数据(语音录音)、多模态数据(文本+图像、语音+视频)。

数据处理:原始数据需经过标注、清洗才能用于训练,如数据堂等专业公司提供数据标注服务(如标注人脸特征、语音语义、行业术语);数据量越大、覆盖场景越广,模型效果通常越好。

(3)框架:大模型的“工具包”

框架是编写训练代码、搭建模型的工具,课程后续会重点讲解两类主流框架:PyTorch(灵活性高,适合科研和入门学习)、TensorFlow(稳定性强,适合工业级部署);此外,华为昇腾框架、百度飞桨等国产框架也会涉及。

4.3 关键概念:多模态与检索增强生成(RAG)

(1)多模态

指模型可处理多种类型的数据(文本、图像、语音、视频),课程中以“图文问答”为例演示:上传一张“人喝啤酒”的图片,输入提示词“这个人在干什么”,模型可准确识别场景并回答,这就是文本+图像的多模态交互。

应用场景:AI绘画(文本生成图像)、视频生成(文本/图像生成视频)、智能驾驶(图像+语音+文本融合处理)。

(2)检索增强生成(RAG)

核心逻辑:模型在生成内容前,先联网搜索最新、最准确的数据,再基于搜索结果组织语言,避免“胡说八道”。课程中谷歌大模型生成薪酬报告时,就是先搜索行业数据和文献,再整合生成报告,这就是RAG的典型应用。

价值:解决大模型“知识滞后”“生成内容不准确”的问题,适用于需要精准数据支撑的场景(如行业调研、政策分析)。

五、行业应用与发展趋势

5.1 核心应用场景

大模型已渗透到C端(个人用户)和B端(企业用户)多个场景,课程重点提及以下方向:

(1)C端应用

① 内容创作:AI写作(生成报告、文章)、AI绘画(可灵、MidJourney)、AI视频生成(纪梦);② 日常工具:智能问答(豆包、ChatGPT)、图文识别、语音翻译;③ 娱乐场景:虚拟人交互、游戏角色生成。

(2)B端应用

① 金融行业:智能投研助手(分析股市数据、生成研报)、董秘问答(自动回复投资者问题)、风险控制(识别贷款欺诈);② 制造业:设备运维AI方案(预测设备故障)、产线优化(基于数据调整生产流程);③ 企业服务:智能客服(自动回复客户问题,降低人工成本)、内部知识库(自动整理企业文档,支持精准检索)。

5.2 行业发展趋势

① 模型轻量化:大型模型算力成本过高,未来会向轻量化、小型化发展,适配手机、嵌入式设备等低算力场景;② 多模态融合:文本、图像、语音、视频的融合处理会成为主流,实现更自然的人机交互;③ 行业垂直化:大模型会深入各个传统行业,出现制造业大模型、金融大模型、医疗大模型等垂直领域模型;④ 智能体自动化:从“人工用AI工具”向“AI自动完成任务”升级,省略工作流程中的部分节点,实现全流程自动化;⑤ 国产化替代:国产芯片、开源模型(如DeepSeek、百度文心一言、阿里通义千问)会逐步替代国外产品,保障数据安全和产业自主。

5.3 行业落地现状与挑战

落地现状:目前最成熟的场景是智能客服、内容生成、金融投研;制造业、医疗等行业仍处于试点阶段,核心瓶颈是行业数据不足、模型与场景适配度低。

核心挑战:① 成本高:算力和数据处理成本较高,中小企业难以承担;② 准确性:部分场景下模型生成内容仍存在误差,需人工校验;③ 合规性:数据隐私、模型伦理等问题需完善的政策规范。