AI 大模型应用场景（含多种应用场景计算机视觉+语音处理+推荐系统+自动驾驶+智慧医疗）《AI 大模型应用开发实战》完整

我整理了超过 50 个英文术语的理解方式和 7 大章节的技术链路。分享出来，希望对同样入门大模型的朋友有帮助。

英文术语
算力与云计算平台：AI 的超级服务器
NLP 自然语言处理：one-hot->word2Vec->transformer——>gpt/bert
计算机视觉：CNN；图像处理，图像识别，降噪，分割
个性化推荐技术：“猜你喜欢” “信息茧房”“协同过滤+内容过滤+混合推荐”
自动驾驶：感知->规划-〉控制（SLAM）
医疗 AI：3D CNN -AI 辅助医生看片子的核心原理

一、AI圈常用的英文术语解析

⭐GPU Graphics Processing Unit（图形处理器）：显卡，并行计算适配神经网络｜核心：多核心并行处理海量简单运算，适配AI计算
⭐TPU Tensor Processing Unit（张量处理单元）：谷歌AI加速芯片，专攻矩阵乘法｜核心：用脉动阵列架构，高效处理AI矩阵运算
⭐AWS Amazon Web Services（亚马逊云服务）：全球最大云计算平台，租GPU服务器｜核心：弹性租用云端资源，按需付费不浪费
EC2 Elastic Compute Cloud（弹性计算云）：AWS虚拟机，按需选配硬件｜核心：自定义硬件配置，快速部署远程虚拟机
S3 Simple Storage Service（简单存储服务）：AWS云端硬盘，多机房备份｜核心：跨区域多副本存储，保障数据不丢失
SageMaker Amazon SageMaker（亚马逊AI开发套件）：AWS一站式AI开发套件｜核心：集成数据处理、训练、部署全流程工具
Azure Microsoft Azure（微软云服务）：微软云，企业软件集成强｜核心：深度兼容微软生态，满足企业合规需求
AutoML Automatic Machine Learning（自动机器学习）：自动试模型参数，快速出结果｜核心：自动筛选模型、优化参数，无需手动编码
BigQuery Big Query（大数据查询引擎）：谷歌云，SQL查PB级数据｜核心：分布式架构并行计算，快速处理PB级数据查询
⭐NLP Natural Language Processing（自然语言处理）：让计算机理解/生成人类语言｜核心：文字转数字算语义，再转文字实现理解生成
⭐Transformer Transformer（变换器）：大模型核心架构，自注意力｜核心：自注意力关联词间关系，并行高效建模
⭐BERT Bidirectional Encoder Representations from Transformers：主打理解，双向看上下文｜核心：双向掩码词汇，靠前后文推测语义
⭐GPT Generative Pre-trained Transformer（生成式预训练变换器）：主打生成，从左往右续写｜核心：自回归逐词预测，串联生成完整文本
RoBERTa Robustly optimized BERT approach（鲁棒优化版BERT）：优化版BERT，效果更稳｜核心：增数据优策略，提升模型鲁棒性
ALBERT A Lite BERT（轻量化BERT）：轻量化BERT，低配可跑｜核心：层参数共享，压缩体积且保性能
DistilBERT Distilled BERT（蒸馏版BERT）：小模型，能力近大模型｜核心：知识蒸馏，让小模型习得大模型核心能力
MLM Masked Language Model（掩码语言模型）：BERT训练法，遮词预测｜核心：遮蔽词汇，依据上下文猜测原词
AR Autoregressive Model（自回归模型）：GPT训练法，预测下一词｜核心：凭前文序列，逐词预测下一词概率
Word2Vec Word to Vector（词转向量）：词转向量，近义距近｜核心：借上下文窗口，学习词汇分布式向量
GloVe Global Vectors for Word Representation（全局词向量）：全局词向量，质量更稳｜核心：结合全局词共现，生成稳定词向量
⭐jieba 结巴分词：中文分词，NLP第一步｜核心：词典+统计结合，精准切分中文词汇
NER Named Entity Recognition（命名实体识别）：提取人名/地名/机构名｜核心：识别文本实体，分类为人名、地名等
T5 Text-to-Text Transfer Transformer（文本到文本变换器）：统一任务为「文本→文本」｜核心：所有NLP任务统一为文本转换形式
⭐CNN Convolutional Neural Network（卷积神经网络）：图像识别核心
⭐GAN Generative Adversarial Network（生成对抗网络）：图像生成与风格迁移，造假图以假乱真｜核心：生成器与判别器博弈，优化图像真实性
ResNet Residual Network（残差网络）：残差网络，解决深层网络梯度消失与退化｜核心是加了跳跃连接（近道） 。解决了深层神经网络层数堆深了之后梯度消失、还有效果退化的问题，让网络可以堆得很深还能训练收敛、效果更好。
⭐TensorFlow Tensor Flow（张量流）：谷歌框架，适合工业部署｜核心：静态计算图，保障大规模部署稳定
⭐PyTorch PyTorch（派火炬）：Meta框架，灵活易上手｜核心：动态计算图，支持即时调试适配科研
Adam Adaptive Moment Estimation（自适应矩估计）：优化算法，训练又快又稳｜核心：自适应调参学习率，加速模型收敛
SGD Stochastic Gradient Descent（随机梯度下降）：基础优化算法，梯度下降｜核心：随机采小批数据，沿梯度更新参数
⭐Fine-tuning 微调：微调大模型，适配新任务｜核心：少量任务数据，微调预训练模型适配新场景
LIME Local Interpretable Model-agnostic Explanations（局部可解释模型无关解释）：解释模型判断的原因｜核心：局部简单模型近似，解释复杂决策逻辑
Edge Computing 边缘计算：本地设备运行模型，保隐私｜核心：终端设备本地运算，低延迟保隐私
⭐CF Collaborative Filtering（协同过滤）：靠群体行为推荐｜核心：基于用户/物品相似性，挖掘潜在偏好
Cold Start 冷启动：新用户/商品无数据推荐｜核心：无历史数据，用热门/标签推荐过渡
Content Filtering 内容过滤：按物品属性匹配推荐｜核心：物品属性+用户偏好，精准匹配推荐
Hybrid Recommendation 混合推荐：混合多种推荐方法｜核心：融合多算法优势，提升推荐效果
⭐Deep Learning Recommendation 深度学习推荐：编码向量推荐｜核心：用户物品转向量，算相似度推荐
⭐SLAM Simultaneous Localization and Mapping（同步定位与建图）：同步定位+绘制环境地图｜核心：实时感知环境，同步定位并构建地图
A* A-star Algorithm（A星算法）：快速找最短路径的算法｜核心：结合当前+预估成本，快速搜最短路径
Dijkstra Dijkstra Algorithm（迪杰斯特拉算法）：经典最短路径算法｜核心：起点逐层扩散，找全局最优路径
PID Proportional-Integral-Derivative（比例-积分-微分控制器）：简单控制器，调节油门/方向盘｜核心：依误差、积分、微分，稳定调节控制量
MPC Model Predictive Control（模型预测控制）：预测未来，动作更平滑｜核心：预测未来状态，生成最优控制序列

二、AI基建之算力与云计算平台：AI 的超级服务器

2.1 为什么个人电脑跑不动大模型？

训练一个 7B（70 亿）参数的大模型，就像在一座巨型图书馆里整理图书。我们简单算个账：每个参数通常用 2 个字节（16 位浮点数）存储，70 亿参数模型本身就需要约 14 GB 显存。但训练时远不止这些，还要存梯度（也是 14 GB）和优化器状态（例如 Adam 需要存一阶动量和二阶动量，每个参数再加 8 个字节）。七七八八算下来，训练 7B 模型需要超过 80 GB 显存。

一块顶级的消费级显卡 RTX 4090 只有 24 GB 显存，至少要 4 块并行，并且要连续跑数周甚至一个月。不仅贵，散热和电费也吓人。因此，云计算几乎是唯一可行的方式。

2.2 云计算的本质是“共享算力”

云厂商（AWS、谷歌云、Azure）买了数十万块昂贵的 GPU（如 A100、H100），用虚拟化技术把它们切成更小的“算力片”，按小时租给你。你可以根据自己的需求，随时开启几十台带 8 块 GPU 的服务器，训练完成点击“关闭”，从不浪费。

2.3 GPU 为什么更擅长 AI 计算？

CPU（中央处理器）擅长复杂的逻辑控制和串行计算，核心少但每个都很强，像几个数学博士。GPU（图形处理器）则拥有数千个简单的小核心，可以同时做大量相似的运算，像几千个小学生。

神经网络的本质就是海量的矩阵乘法和加法，这些运算相互独立，正好可以分配给 GPU 的几千个小核心一起去算。比如一个 512x512 的矩阵乘法，GPU 将任务切成数百个小块，让上千核心同时干活，处理速度是 CPU 的几十甚至上百倍。

而 TPU 更加极端，它是谷歌专门为矩阵运算设计的芯片，直接在电路层面优化了矩阵乘加运算，处理张量的效率比通用 GPU 还高，特别适合大规模、长时间的模型训练。

2.4 三大云平台怎么选

平台	适合人群	突出优势	需注意的坑
AWS	个人开发者、AI 初学者	服务最全，教程最多，SageMaker 搞定全流程	价格较贵，国内部分地区访问速度一般
谷歌云	科研人员、大规模预训练	TPU 算力水平独步天下，与 TensorFlow 全家桶完美配合	国内直连偶尔不稳定，支付方式略麻烦
Azure	传统企业、微软生态用户	企业安全认证齐全，无缝集成 Office 和 Windows	操作界面复杂，对个人开发者不算友好

如果你刚开始学习，一个 AWS 的 g4dn.xlarge 实例（带 T4 GPU）每小时大约 0.5 美元，足够跑通书本所有示例；做小的微调任务可能只需几美金。

三、NLP：让 AI 懂文字、写文字

3.1 NLP 的本质：把文字变成数字再变回来

计算机内部只认识 0 和 1，不认识汉字或英文。因此 NLP 的核心流程永远只有三步：

分词：把一句话切成一个一个词或子词。
向量化：给每个词赋予一串数字（向量），数字代表了它的语义。
模型计算：在数字上做各种运算，得到新的数字，再映射回文字或标签。

比如句子“我爱中国”，先用 jieba 切成 ["我", "爱", "中国"]，然后查表把这三个词变成三个向量，送进神经网络。网络输出可能是一个标签“正面情感”，或者一串向量解码成“I love China”。

为什么必须分词？ 中文天然词与词之间没有空格，不像英文天然以空格分隔。如果不分词，“我爱中国”就是一个整串，模型分不清“我”和“中国”是两个独立概念。因此分词是中文 NLP 的第一关。

3.2 词向量：让计算机理解类比

早期的 one‑hot 编码，每个词都是一个除了一位为 1 其余全 0 的长向量，比如“苹果” = [1,0,0,…]，“香蕉” = [0,1,0,…]。这样的向量一万个词就要一万维，而且两个向量之间的距离没有任何意义，“苹果”和“香蕉”的距离和“苹果”和“汽车”的距离一样。

Word2Vec 的出现改变了这一点：用一句话中附近的词预测中心的词（或者反过来），训练出一个几百维的稠密向量。训练完成后，你会惊奇的发现：
“国王”的向量 - “男人”的向量 + “女人”的向量 ≈ “王后”的向量。

也就是说，词向量里自动蕴含了语义关系，计算机虽然还是不懂“国王”是什么意思，但它知道了词与词的相对位置。

但 Word2Vec 有一个大缺陷：无法处理多义词。比如“苹果”在“吃苹果”和“苹果手机”中只有一套向量，均值化了。这就引出了动态词向量：BERT。

BERT 的神奇之处在于，同一个“苹果”，在句子“我喜欢吃苹果”和“苹果发布了新手机”中，会得到完全不同的向量，因为它会看上下文动态生成。这使得模型真正开始“读懂”语境。

3.3 Transformer：现代大模型的基石

在 Transformer 出现之前，处理句子主要靠 LSTM 这类循环网络，它像人阅读一样，必须一个词一个词地往下看。这样有两个致命问题：

慢：必须串行，没法并行加速。
忘：读到第 50 个词时，第一个词已经忘得差不多了。

Transformer 的核心创新是自注意力机制。简单说就是：让一句话中的所有词两两之间互相“看”一眼，计算彼此的紧密程度。

用大白话拆解自注意力：
假设有一句话：“这只猫很可爱，它总是在睡觉。”模型需要知道“它”指的是“猫”。自注意力机制会把“它”变成一个查询向量 Q，把其它所有词变成键向量 K 和值向量 V。然后用 Q 和所有 K 做点积，得到相似度分数，经过 softmax 变成权重，权重大的词代表关系强，再用这些权重去加权求和所有 V，得到“它”的新表示，这个新表示就会包含“猫”的信息。

整个过程都是矩阵运算，所有词同时参与计算，无需串行。因此 Transformer 可以高效处理几千甚至上万个词的上下文，彻底解决了长文本问题。

3.4 BERT 与 GPT：阅读理解 vs 文案创作

虽然都基于 Transformer，但 BERT 和 GPT 走向了两条路：

BERT 是编码器结构，可以同时看到左右两侧的词。训练方法是掩码语言模型（MLM），也就是做完形填空。这导致它天然适合“理解”任务，比如判断邮件是不是垃圾、从合同里抽取金额和日期、分析评论的情感。
GPT 是解码器结构，只能单向看到前方的词，后面的词对当前词是隐藏的。训练方法是自回归（AR），像写小说一样，根据前面生成的字预测下一个字。这注定了它是天生的“生成”者，擅长写文章、聊天、编故事。

你可以这样记：BERT 是满腹经纶的图书管理员，你问它书里写了什么都能答对，但它自己从不写书。GPT 是才思泉涌的小说家，你给个开头，它能给你写一整本书，但别问它太细的知识点，可能胡诌。

3.5 模型瘦身三部曲：ALBERT、DistilBERT、知识蒸馏

大模型好是好，但太吃资源了。想让 BERT 在你的手机或者小服务器上运行，就需要“瘦身”。

ALBERT 通过参数共享来瘦身：让神经网络的所有层使用同一套参数，这样 12 层的网络只需要存 1 层的参数量，极大缩小体积

（普通 Transformer 每一层都有自己独立的参数，层数越多参数越多、模型越大。ALBERT 搞了参数共享：所有层共用同一套参数。）。

DistilBERT 通过知识蒸馏来瘦身：先有一个大老师模型 BERT，让它去批改一堆无标注数据，输出“软标签”（比如这个词 80% 可能是“猫”，20% 是“狗”）。然后让一个小模型去学习这些软标签，而不仅仅是硬标签。小模型学的是老师判断的习惯和规律，所以能用更少的参数达到接近老师的效果。

两者的区别好比：ALBERT 是把一本百科全书反复用同一张纸正反面印；DistilBERT 是找了个清华博士，让他把百科全书的精华总结成一本小册子。

四、计算机视觉

4.1 图片在计算机里是什么？

一张 1920×1080 的彩色照片，本质上是一个巨大的三维数组：(1080, 1920, 3)。前两维是每个像素的坐标，第三维是 RGB 三个颜色通道，每个值 0‑255 表示亮度。

所有的图像处理，本质上就是对这三个数表做加减乘除。比如把整个数组所有值都加 50，图片就变亮了；用一个 3×3 的窗口在图片上滑动，取窗口内的中位数作为新像素值，噪声就没了。

4.2 CNN：让 AI 看懂图片的核心

人类看照片是先看到边缘轮廓，再组合成眼睛鼻子，最后认出一张人脸。CNN 用类似的方式工作：卷积核是一个 3×3 或 5×5 的小权重矩阵，在图片上逐行滑动，每覆盖一个区域就和对应像素相乘再求和，得到一个新的数值。经过一层层的卷积，底层学到边缘和色彩斑点，中层学到纹理和局部形状，高层学到完整的语义信息，比如“人脸”“汽车”“猫”。

ResNet 为什么能堆到 152 层还不崩？ 以前网络太深了，训练时信号会消失（梯度消失）。ResNet 在层之间加了一条“紧急通道”——短路连接，让输入可以直接绕过某些层加到输出上。这样一来，网络最差也不过学不到新东西，但绝不会退步，变得更深反而更好。

五、个性化推荐：抖音/淘宝“猜你喜欢”的底层逻辑

5.1 推荐系统的本质是“填空”

打开淘宝首页，推荐系统在做一件事：在一个巨大的用户 × 商品矩阵里，预测你还会在那些空白格子里打几星。这个矩阵有亿级用户、十亿级商品，但每个用户只买过其中几十样，其他 99.999% 都是空的——这就是稀疏矩阵。

推荐算法要做的，就是根据已经填上的星星，猜出空位的星星值，然后把得分最高的几个商品推给你。

5.2 协同过滤：物以类聚，人以群分

协同过滤分为两种：

基于用户的协同过滤：找到和你历史行为最像的几个用户，看看他们买了什么你没买的东西，推荐给你。
例子：你和小明都买过《Python 入门》和《机器学习实战》，而小明还买了《深度学习》，那系统就给你推《深度学习》。
基于物品的协同过滤：找到你买过的物品，再找和这些物品一起被购买的物品。
例子：你买了 iPhone，系统发现买 iPhone 的人绝大多数还买了手机壳和充电器，就推荐手机壳和充电器。

底层计算：把每个用户用一个向量表示，然后算向量之间的余弦相似度。两个角度越接近，兴趣越相似。但协同过滤有两大硬伤：新用户/新商品完全没数据，什么都推荐不出来（冷启动）；还有就是你买过一次尿布，它可能先推荐奶粉，后面永远给你推婴儿用品，哪怕你只是帮朋友买了一次（信息茧房）。

5.3 内容过滤：靠标签推荐

给每件商品打上标签，比如你点的电影都带有“科幻”、“动作”标签，系统就给你建一个偏好标签向量，然后找标签重合度高的电影推荐。

好处是不依赖其他用户的数据，新品一上来就能推，推荐结果还能解释“因为你喜欢科幻，所以推《星际穿越》”。缺点是必须有人或者算法先打标签，而且推荐会越来越窄，缺乏惊喜。

5.4 混合推荐与深度学习推荐

现代大型平台混合推荐：新用户用内容过滤+热门推荐度过冷启动，老用户用协同过滤+深度学习精准匹配。

抖音等短视频平台的核心是深度学习推荐：使用双塔模型，一个塔把你观看时长、点赞、转发、年龄性别等所有特征压缩成一个向量；另一个塔把视频的画面特征、标题、BGM 等压缩成一个向量。这两个向量越相似，推给你的概率越高。训练完后，系统能实时根据你刚刚的刷新行为，在几毫秒内从几十亿视频里挑出几个最匹配的。

六、AI大模型应用领域之自动驾驶

6.1 自动驾驶的流水线：感知→规划→控制

自动驾驶是一个无休止的循环，每秒运行几十次：

感知：摄像头、雷达、激光雷达等传感器采集到周围 360° 的原始数据。CNN 识别出车道线、行人、其他车辆、红绿灯。
规划：有了这些信息，规划模块要决定：是变道还是跟车，走哪条路线。全局规划用 A* 找从家到公司的最短路径，局部规划应对突然窜出的行人，快速重新规划一条避让轨迹。
控制：把规划出的目标轨迹转化为方向盘转角、油门和刹车的具体指令，让车平稳准确执行。

6.2 SLAM：一边走路一边画地图的黑魔法

在没有 GPS 信号的地下车库，自动驾驶车怎么知道自己在哪里？

SLAM 全称 Simultaneous Localization and Mapping（同时定位与地图构建） ，核心是让设备在未知环境中，通过自身传感器（相机、激光雷达等）同时完成两件事：

定位：实时估计自身位置和姿态
建图：构建周围环境的地图解决 “无先验地图下定位与建图相互依赖” 的问题，实现自主导航与环境感知。）（同步定位与建图，一边在陌生环境中移动，一边同时确定自己的位置并画出地图）

SLAM会同时做两件事：通过激光雷达扫描周围墙壁的形状，与之前建立的局部地图匹配，反推出自己移动了多少（定位）；同时把新扫描到的墙壁形状拼接到地图上，不断扩大地图（建图）。就像你走进一个全黑的屋子，摸着家具在脑中构建平面图。

常见应用场景

🧹 扫地机器人：精准避障不迷路
🚗 自动驾驶：隧道里没 GPS 也能走
🚁 无人机：陌生山谷自主勘探
🕶️ AR 眼镜：虚拟物体贴合现实环境

6.3 PID 与 MPC：如何让车顺滑行驶

PID 控制器是最朴实无华的司机：比如你要保持 60km/h 定速，上坡慢了，误差变大，P 就多给油；如果一直到不了 60，I 会多补一脚；如果速度上冲太快，D 会预测并收点油门，防止超速。参数调好了，足以应对大部分平稳路况。

MPC 模型预测控制则是老司机加预判：它会建一个车辆模型，然后计算“如果我未来三秒这样打方向、给这么点油，车子会在哪里”，并同时模拟很多种操作方案，选一个最安全最舒适的组合，然后只执行第一个 0.1 秒的动作，下个周期再计算一次。这样车就能提前转弯，平滑避障，而不是临近了才猛打方向盘。

七、AI大模型应用医疗 AI之AI 辅助医生看片子

7.1 医疗影像 AI 的核心使命

CT、MRI 等医学影像本质是灰度图像，比普通照片多了一层深度信息，可以看作三维数据。医生的精力有限，一张 CT 几百个切片，可能漏掉早期微小病灶。AI 可以用 3D CNN 对全卷数据建模，自动标出可疑区域，作为“第二双眼”辅助诊断。

7.2 影像处理五步曲

预处理：去噪、归一化，把不同机器拍出来的图像亮度范围统一到 0‑1 之间。
分割：比如用 U‑Net 卷积网络从肺部 CT 中精确勾画出肺结节区域，把病灶和正常组织分离。
配准：同一个患者去年和今年的片子体位可能有偏差，刚性/非刚性配准将它们对齐，方便对比观察肿瘤是增大还是缩小了。
特征提取：用 GLCM 等方法提取结节的纹理，比如粗糙程度、轮廓是否光滑——恶性肿瘤往往边缘毛糙，纹理不均。
深度学习分析：3D CNN 直接吸收整个 CT 块，自动学习哪些三维形态模式是恶性的，输出一个恶性概率，辅助医生决策。

整个过程，AI 并不替代医生，而是让医生从大量重复的筛片中解放出来，把精力集中在复杂案例上。

至此，核心内容我们已经带着大白话和底层逻辑梳理了一遍。从第一天开始怕术语，到现在应该能清晰看出：不管是文字、图片还是车流、病灶，在 AI 眼中统一都是数字，而深度学习要做的，就是在这些数字中找到规律，给出预测。希望这份笔记能成为你进入 AI 大模型世界的领路人，另本文参考了基于吕阳《AI 大模型应用开发实战》。

AI 大模型应用场景（含多种应用场景计算机视觉+语音处理+推荐系统+自动驾驶+智慧医疗）

目录