AI大模型入门（一）：什么是大模型？一、大模型定义狭义定义特指ChatGPT等大语言模型（LLM），通过千亿级参数训练

一、大模型定义狭义定义特指ChatGPT等大语言模型（LLM），通过千亿级参数训练，具备文本生成、逻辑推理等通用能力。广义定义涵盖CV/语音等领域的通用模型范式，演进路径：专用小模型 → 预训练+微调 → 大模型+人类对齐核心价值传统AI需为每个任务单独训练模型（如翻译模型、摘要模型），而大模型如同「瑞士军刀」，单模型应对多任务。二、AI技术分层架构
关键差异对比：

技术层级	数据需求	特征提取	典型应用
机器学习	标注数据	人工设计	垃圾邮件分类
深度学习	部分标注	半自动提取	人脸识别
大模型	无标注海量文本	完全自主提取	多轮对话系统

三、语言模型的五次进化1. 统计语言模型（1950s）基于词频预测，如同查字典写作文2. 神经语言模型（2013）RNN/LSTM网络，实现上下文记忆3. 预训练模型（2018）BERT/GPT-1开启「预训练+微调」范式4. 大模型萌芽（2020）GPT-3展现零样本学习能力5. 人类对齐时代（2022）ChatGPT通过RLHF技术理解人类意图技术拐点：2017年Transformer架构问世，突破长文本处理瓶颈。四、核心概念生成式AI vs 决策式AI

AIGC三大特征：

内容原创性（非简单拼接）
多模态输出（图文/音视频）
可控生成（通过提示词引导）

五、技术生态中国大模型「三梯队」格局：通用底座

百度文心一言
阿里通义千问
深度求索DeepSeek
智谱AI（ChatGLM系列）

垂直领域

医疗：腾讯觅影、医渡云
法律：幂律智能、华宇元典
金融：度小满轩辕、恒生LightGPT

大模型不是替代人类的「对手」，而是放大能力的「杠杆」

AI大模型入门 （一）：什么是大模型？

AI大模型入门（一）：什么是大模型？