AI大模型入门 (一):什么是大模型?

186 阅读2分钟

一、大模型定义

狭义定义

特指ChatGPT等大语言模型(LLM),通过千亿级参数训练,具备文本生成、逻辑推理等通用能力。

广义定义

涵盖CV/语音等领域的通用模型范式,演进路径:专用小模型 → 预训练+微调 → 大模型+人类对齐

核心价值

传统AI需为每个任务单独训练模型(如翻译模型、摘要模型),而大模型如同「瑞士军刀」,单模型应对多任务。

二、AI技术分层架构

关键差异对比:

技术层级数据需求特征提取典型应用
机器学习标注数据人工设计垃圾邮件分类
深度学习部分标注半自动提取人脸识别
大模型无标注海量文本完全自主提取多轮对话系统

三、语言模型的五次进化

  1. 统计语言模型(1950s)

基于词频预测,如同查字典写作文

  1. 神经语言模型(2013)

RNN/LSTM网络,实现上下文记忆

  1. 预训练模型(2018)

BERT/GPT-1开启「预训练+微调」范式

  1. 大模型萌芽(2020)

GPT-3展现零样本学习能力

  1. 人类对齐时代(2022)

ChatGPT通过RLHF技术理解人类意图

技术拐点:2017年Transformer架构问世,突破长文本处理瓶颈。

四、核心概念

生成式AI vs 决策式AI

AIGC三大特征:

  1. 内容原创性(非简单拼接)
  2. 多模态输出(图文/音视频)
  3. 可控生成(通过提示词引导)

五、技术生态

中国大模型「三梯队」格局:

通用底座

  • 百度文心一言
  • 阿里通义千问
  • 深度求索DeepSeek
  • 智谱AI(ChatGLM系列)

垂直领域

  • 医疗:腾讯觅影、医渡云
  • 法律:幂律智能、华宇元典
  • 金融:度小满轩辕、恒生LightGPT

大模型不是替代人类的「对手」,而是放大能力的「杠杆」

推荐阅读

软件测试/测试开发丨常见面试题与流程篇(附答案)

软件测试/测试开发丨学习笔记之Allure2测试报告

软件测试/测试开发丨Pytest测试用例生命周期管理-Fixture

软件测试/测试开发丨Python学习笔记之基本数据类型与操作

软件测试/测试开发丨学习笔记之列表、元组、集合

软件测试/测试开发丨Python常用数据结构-学习笔记

软件测试/测试开发丨Python控制流-判断&循环

软件测试/测试开发丨Python学习笔记之内置库科学计算、日期与时间处理

软件测试/测试开发丨面试题之软素质与反问面试官篇(附答案)

软件测试/测试开发丨iOS 自动化测试踩坑(一): 技术方案、环境配置与落地实践