我整理了超过 50 个英文术语的理解方式和 7 大章节的技术链路。分享出来,希望对同样入门大模型的朋友有帮助。
目录
- 英文术语
- 算力与云计算平台:AI 的超级服务器
- NLP 自然语言处理:one-hot->word2Vec->transformer——>gpt/bert
- 计算机视觉:CNN;图像处理,图像识别,降噪,分割
- 个性化推荐技术:“猜你喜欢” “信息茧房”“协同过滤+内容过滤+混合推荐”
- 自动驾驶:感知->规划-〉控制(SLAM)
- 医疗 AI:3D CNN -AI 辅助医生看片子的核心原理
一、AI圈常用的英文术语解析
-
⭐GPU Graphics Processing Unit(图形处理器):显卡,并行计算适配神经网络|核心:多核心并行处理海量简单运算,适配AI计算
-
⭐TPU Tensor Processing Unit(张量处理单元):谷歌AI加速芯片,专攻矩阵乘法|核心:用脉动阵列架构,高效处理AI矩阵运算
-
⭐AWS Amazon Web Services(亚马逊云服务):全球最大云计算平台,租GPU服务器|核心:弹性租用云端资源,按需付费不浪费
-
EC2 Elastic Compute Cloud(弹性计算云):AWS虚拟机,按需选配硬件|核心:自定义硬件配置,快速部署远程虚拟机
-
S3 Simple Storage Service(简单存储服务):AWS云端硬盘,多机房备份|核心:跨区域多副本存储,保障数据不丢失
-
SageMaker Amazon SageMaker(亚马逊AI开发套件):AWS一站式AI开发套件|核心:集成数据处理、训练、部署全流程工具
-
Azure Microsoft Azure(微软云服务):微软云,企业软件集成强|核心:深度兼容微软生态,满足企业合规需求
-
AutoML Automatic Machine Learning(自动机器学习):自动试模型参数,快速出结果|核心:自动筛选模型、优化参数,无需手动编码
-
BigQuery Big Query(大数据查询引擎):谷歌云,SQL查PB级数据|核心:分布式架构并行计算,快速处理PB级数据查询
-
⭐NLP Natural Language Processing(自然语言处理):让计算机理解/生成人类语言|核心:文字转数字算语义,再转文字实现理解生成
-
⭐Transformer Transformer(变换器):大模型核心架构,自注意力|核心:自注意力关联词间关系,并行高效建模
-
⭐BERT Bidirectional Encoder Representations from Transformers:主打理解,双向看上下文|核心:双向掩码词汇,靠前后文推测语义
-
⭐GPT Generative Pre-trained Transformer(生成式预训练变换器):主打生成,从左往右续写|核心:自回归逐词预测,串联生成完整文本
-
RoBERTa Robustly optimized BERT approach(鲁棒优化版BERT):优化版BERT,效果更稳|核心:增数据优策略,提升模型鲁棒性
-
ALBERT A Lite BERT(轻量化BERT):轻量化BERT,低配可跑|核心:层参数共享,压缩体积且保性能
-
DistilBERT Distilled BERT(蒸馏版BERT):小模型,能力近大模型|核心:知识蒸馏,让小模型习得大模型核心能力
-
MLM Masked Language Model(掩码语言模型):BERT训练法,遮词预测|核心:遮蔽词汇,依据上下文猜测原词
-
AR Autoregressive Model(自回归模型):GPT训练法,预测下一词|核心:凭前文序列,逐词预测下一词概率
-
Word2Vec Word to Vector(词转向量):词转向量,近义距近|核心:借上下文窗口,学习词汇分布式向量
-
GloVe Global Vectors for Word Representation(全局词向量):全局词向量,质量更稳|核心:结合全局词共现,生成稳定词向量
-
⭐jieba 结巴分词:中文分词,NLP第一步|核心:词典+统计结合,精准切分中文词汇
-
NER Named Entity Recognition(命名实体识别):提取人名/地名/机构名|核心:识别文本实体,分类为人名、地名等
-
T5 Text-to-Text Transfer Transformer(文本到文本变换器):统一任务为「文本→文本」|核心:所有NLP任务统一为文本转换形式
-
⭐CNN Convolutional Neural Network(卷积神经网络):图像识别核心
-
⭐GAN Generative Adversarial Network(生成对抗网络):图像生成与风格迁移,造假图以假乱真|核心:生成器与判别器博弈,优化图像真实性
-
ResNet Residual Network(残差网络):残差网络,解决深层网络梯度消失与退化|核心是加了跳跃连接(近道) 。解决了深层神经网络层数堆深了之后梯度消失、还有效果退化的问题,让网络可以堆得很深还能训练收敛、效果更好。
-
⭐TensorFlow Tensor Flow(张量流):谷歌框架,适合工业部署|核心:静态计算图,保障大规模部署稳定
-
⭐PyTorch PyTorch(派火炬):Meta框架,灵活易上手|核心:动态计算图,支持即时调试适配科研
-
Adam Adaptive Moment Estimation(自适应矩估计):优化算法,训练又快又稳|核心:自适应调参学习率,加速模型收敛
-
SGD Stochastic Gradient Descent(随机梯度下降):基础优化算法,梯度下降|核心:随机采小批数据,沿梯度更新参数
-
⭐Fine-tuning 微调:微调大模型,适配新任务|核心:少量任务数据,微调预训练模型适配新场景
-
LIME Local Interpretable Model-agnostic Explanations(局部可解释模型无关解释):解释模型判断的原因|核心:局部简单模型近似,解释复杂决策逻辑
-
Edge Computing 边缘计算:本地设备运行模型,保隐私|核心:终端设备本地运算,低延迟保隐私
-
⭐CF Collaborative Filtering(协同过滤):靠群体行为推荐|核心:基于用户/物品相似性,挖掘潜在偏好
-
Cold Start 冷启动:新用户/商品无数据推荐|核心:无历史数据,用热门/标签推荐过渡
-
Content Filtering 内容过滤:按物品属性匹配推荐|核心:物品属性+用户偏好,精准匹配推荐
-
Hybrid Recommendation 混合推荐:混合多种推荐方法|核心:融合多算法优势,提升推荐效果
-
⭐Deep Learning Recommendation 深度学习推荐:编码向量推荐|核心:用户物品转向量,算相似度推荐
-
⭐SLAM Simultaneous Localization and Mapping(同步定位与建图):同步定位+绘制环境地图|核心:实时感知环境,同步定位并构建地图
-
A* A-star Algorithm(A星算法):快速找最短路径的算法|核心:结合当前+预估成本,快速搜最短路径
-
Dijkstra Dijkstra Algorithm(迪杰斯特拉算法):经典最短路径算法|核心:起点逐层扩散,找全局最优路径
-
PID Proportional-Integral-Derivative(比例-积分-微分控制器):简单控制器,调节油门/方向盘|核心:依误差、积分、微分,稳定调节控制量
-
MPC Model Predictive Control(模型预测控制):预测未来,动作更平滑|核心:预测未来状态,生成最优控制序列
二、AI基建之算力与云计算平台:AI 的超级服务器
2.1 为什么个人电脑跑不动大模型?
训练一个 7B(70 亿)参数的大模型,就像在一座巨型图书馆里整理图书。我们简单算个账:每个参数通常用 2 个字节(16 位浮点数)存储,70 亿参数模型本身就需要约 14 GB 显存。但训练时远不止这些,还要存梯度(也是 14 GB)和优化器状态(例如 Adam 需要存一阶动量和二阶动量,每个参数再加 8 个字节)。七七八八算下来,训练 7B 模型需要超过 80 GB 显存。
一块顶级的消费级显卡 RTX 4090 只有 24 GB 显存,至少要 4 块并行,并且要连续跑数周甚至一个月。不仅贵,散热和电费也吓人。因此,云计算几乎是唯一可行的方式。
2.2 云计算的本质是“共享算力”
云厂商(AWS、谷歌云、Azure)买了数十万块昂贵的 GPU(如 A100、H100),用虚拟化技术把它们切成更小的“算力片”,按小时租给你。你可以根据自己的需求,随时开启几十台带 8 块 GPU 的服务器,训练完成点击“关闭”,从不浪费。
2.3 GPU 为什么更擅长 AI 计算?
CPU(中央处理器)擅长复杂的逻辑控制和串行计算,核心少但每个都很强,像几个数学博士。GPU(图形处理器)则拥有数千个简单的小核心,可以同时做大量相似的运算,像几千个小学生。
神经网络的本质就是海量的矩阵乘法和加法,这些运算相互独立,正好可以分配给 GPU 的几千个小核心一起去算。比如一个 512x512 的矩阵乘法,GPU 将任务切成数百个小块,让上千核心同时干活,处理速度是 CPU 的几十甚至上百倍。
而 TPU 更加极端,它是谷歌专门为矩阵运算设计的芯片,直接在电路层面优化了矩阵乘加运算,处理张量的效率比通用 GPU 还高,特别适合大规模、长时间的模型训练。
2.4 三大云平台怎么选
| 平台 | 适合人群 | 突出优势 | 需注意的坑 |
|---|---|---|---|
| AWS | 个人开发者、AI 初学者 | 服务最全,教程最多,SageMaker 搞定全流程 | 价格较贵,国内部分地区访问速度一般 |
| 谷歌云 | 科研人员、大规模预训练 | TPU 算力水平独步天下,与 TensorFlow 全家桶完美配合 | 国内直连偶尔不稳定,支付方式略麻烦 |
| Azure | 传统企业、微软生态用户 | 企业安全认证齐全,无缝集成 Office 和 Windows | 操作界面复杂,对个人开发者不算友好 |
如果你刚开始学习,一个 AWS 的 g4dn.xlarge 实例(带 T4 GPU)每小时大约 0.5 美元,足够跑通书本所有示例;做小的微调任务可能只需几美金。
三、NLP:让 AI 懂文字、写文字
3.1 NLP 的本质:把文字变成数字再变回来
计算机内部只认识 0 和 1,不认识汉字或英文。因此 NLP 的核心流程永远只有三步:
- 分词:把一句话切成一个一个词或子词。
- 向量化:给每个词赋予一串数字(向量),数字代表了它的语义。
- 模型计算:在数字上做各种运算,得到新的数字,再映射回文字或标签。
比如句子“我爱中国”,先用 jieba 切成 ["我", "爱", "中国"],然后查表把这三个词变成三个向量,送进神经网络。网络输出可能是一个标签“正面情感”,或者一串向量解码成“I love China”。
为什么必须分词? 中文天然词与词之间没有空格,不像英文天然以空格分隔。如果不分词,“我爱中国”就是一个整串,模型分不清“我”和“中国”是两个独立概念。因此分词是中文 NLP 的第一关。
3.2 词向量:让计算机理解类比
早期的 one‑hot 编码,每个词都是一个除了一位为 1 其余全 0 的长向量,比如“苹果” = [1,0,0,…],“香蕉” = [0,1,0,…]。这样的向量一万个词就要一万维,而且两个向量之间的距离没有任何意义,“苹果”和“香蕉”的距离和“苹果”和“汽车”的距离一样。
Word2Vec 的出现改变了这一点:用一句话中附近的词预测中心的词(或者反过来),训练出一个几百维的稠密向量。训练完成后,你会惊奇的发现:
“国王”的向量 - “男人”的向量 + “女人”的向量 ≈ “王后”的向量。
也就是说,词向量里自动蕴含了语义关系,计算机虽然还是不懂“国王”是什么意思,但它知道了词与词的相对位置。
但 Word2Vec 有一个大缺陷:无法处理多义词。比如“苹果”在“吃苹果”和“苹果手机”中只有一套向量,均值化了。这就引出了动态词向量:BERT。
BERT 的神奇之处在于,同一个“苹果”,在句子“我喜欢吃苹果”和“苹果发布了新手机”中,会得到完全不同的向量,因为它会看上下文动态生成。这使得模型真正开始“读懂”语境。
3.3 Transformer:现代大模型的基石
在 Transformer 出现之前,处理句子主要靠 LSTM 这类循环网络,它像人阅读一样,必须一个词一个词地往下看。这样有两个致命问题:
- 慢:必须串行,没法并行加速。
- 忘:读到第 50 个词时,第一个词已经忘得差不多了。
Transformer 的核心创新是自注意力机制。简单说就是:让一句话中的所有词两两之间互相“看”一眼,计算彼此的紧密程度。
用大白话拆解自注意力:
假设有一句话:“这只猫很可爱,它总是在睡觉。”模型需要知道“它”指的是“猫”。自注意力机制会把“它”变成一个查询向量 Q,把其它所有词变成键向量 K 和值向量 V。然后用 Q 和所有 K 做点积,得到相似度分数,经过 softmax 变成权重,权重大的词代表关系强,再用这些权重去加权求和所有 V,得到“它”的新表示,这个新表示就会包含“猫”的信息。
整个过程都是矩阵运算,所有词同时参与计算,无需串行。因此 Transformer 可以高效处理几千甚至上万个词的上下文,彻底解决了长文本问题。
3.4 BERT 与 GPT:阅读理解 vs 文案创作
虽然都基于 Transformer,但 BERT 和 GPT 走向了两条路:
-
BERT 是编码器结构,可以同时看到左右两侧的词。训练方法是掩码语言模型(MLM),也就是做完形填空。这导致它天然适合“理解”任务,比如判断邮件是不是垃圾、从合同里抽取金额和日期、分析评论的情感。
-
GPT 是解码器结构,只能单向看到前方的词,后面的词对当前词是隐藏的。训练方法是自回归(AR),像写小说一样,根据前面生成的字预测下一个字。这注定了它是天生的“生成”者,擅长写文章、聊天、编故事。
你可以这样记:BERT 是满腹经纶的图书管理员,你问它书里写了什么都能答对,但它自己从不写书。GPT 是才思泉涌的小说家,你给个开头,它能给你写一整本书,但别问它太细的知识点,可能胡诌。
3.5 模型瘦身三部曲:ALBERT、DistilBERT、知识蒸馏
大模型好是好,但太吃资源了。想让 BERT 在你的手机或者小服务器上运行,就需要“瘦身”。
- ALBERT 通过参数共享来瘦身:让神经网络的所有层使用同一套参数,这样 12 层的网络只需要存 1 层的参数量,极大缩小体积
(普通 Transformer 每一层都有自己独立的参数,层数越多参数越多、模型越大。ALBERT 搞了参数共享:所有层共用同一套参数。)。
- DistilBERT 通过知识蒸馏来瘦身:先有一个大老师模型 BERT,让它去批改一堆无标注数据,输出“软标签”(比如这个词 80% 可能是“猫”,20% 是“狗”)。然后让一个小模型去学习这些软标签,而不仅仅是硬标签。小模型学的是老师判断的习惯和规律,所以能用更少的参数达到接近老师的效果。
两者的区别好比:ALBERT 是把一本百科全书反复用同一张纸正反面印;DistilBERT 是找了个清华博士,让他把百科全书的精华总结成一本小册子。
四、计算机视觉
4.1 图片在计算机里是什么?
一张 1920×1080 的彩色照片,本质上是一个巨大的三维数组:(1080, 1920, 3)。前两维是每个像素的坐标,第三维是 RGB 三个颜色通道,每个值 0‑255 表示亮度。
所有的图像处理,本质上就是对这三个数表做加减乘除。比如把整个数组所有值都加 50,图片就变亮了;用一个 3×3 的窗口在图片上滑动,取窗口内的中位数作为新像素值,噪声就没了。
4.2 CNN:让 AI 看懂图片的核心
人类看照片是先看到边缘轮廓,再组合成眼睛鼻子,最后认出一张人脸。CNN 用类似的方式工作:卷积核是一个 3×3 或 5×5 的小权重矩阵,在图片上逐行滑动,每覆盖一个区域就和对应像素相乘再求和,得到一个新的数值。经过一层层的卷积,底层学到边缘和色彩斑点,中层学到纹理和局部形状,高层学到完整的语义信息,比如“人脸”“汽车”“猫”。
ResNet 为什么能堆到 152 层还不崩? 以前网络太深了,训练时信号会消失(梯度消失)。ResNet 在层之间加了一条“紧急通道”——短路连接,让输入可以直接绕过某些层加到输出上。这样一来,网络最差也不过学不到新东西,但绝不会退步,变得更深反而更好。
五、个性化推荐:抖音/淘宝“猜你喜欢”的底层逻辑
5.1 推荐系统的本质是“填空”
打开淘宝首页,推荐系统在做一件事:在一个巨大的用户 × 商品矩阵里,预测你还会在那些空白格子里打几星。这个矩阵有亿级用户、十亿级商品,但每个用户只买过其中几十样,其他 99.999% 都是空的——这就是稀疏矩阵。
推荐算法要做的,就是根据已经填上的星星,猜出空位的星星值,然后把得分最高的几个商品推给你。
5.2 协同过滤:物以类聚,人以群分
协同过滤分为两种:
-
基于用户的协同过滤:找到和你历史行为最像的几个用户,看看他们买了什么你没买的东西,推荐给你。
例子:你和小明都买过《Python 入门》和《机器学习实战》,而小明还买了《深度学习》,那系统就给你推《深度学习》。 -
基于物品的协同过滤:找到你买过的物品,再找和这些物品一起被购买的物品。
例子:你买了 iPhone,系统发现买 iPhone 的人绝大多数还买了手机壳和充电器,就推荐手机壳和充电器。
底层计算:把每个用户用一个向量表示,然后算向量之间的余弦相似度。两个角度越接近,兴趣越相似。但协同过滤有两大硬伤:新用户/新商品完全没数据,什么都推荐不出来(冷启动);还有就是你买过一次尿布,它可能先推荐奶粉,后面永远给你推婴儿用品,哪怕你只是帮朋友买了一次(信息茧房)。
5.3 内容过滤:靠标签推荐
给每件商品打上标签,比如你点的电影都带有“科幻”、“动作”标签,系统就给你建一个偏好标签向量,然后找标签重合度高的电影推荐。
好处是不依赖其他用户的数据,新品一上来就能推,推荐结果还能解释“因为你喜欢科幻,所以推《星际穿越》”。缺点是必须有人或者算法先打标签,而且推荐会越来越窄,缺乏惊喜。
5.4 混合推荐与深度学习推荐
现代大型平台混合推荐:新用户用内容过滤+热门推荐度过冷启动,老用户用协同过滤+深度学习精准匹配。
抖音等短视频平台的核心是深度学习推荐:使用双塔模型,一个塔把你观看时长、点赞、转发、年龄性别等所有特征压缩成一个向量;另一个塔把视频的画面特征、标题、BGM 等压缩成一个向量。这两个向量越相似,推给你的概率越高。训练完后,系统能实时根据你刚刚的刷新行为,在几毫秒内从几十亿视频里挑出几个最匹配的。
六、AI大模型应用领域之自动驾驶
6.1 自动驾驶的流水线:感知→规划→控制
自动驾驶是一个无休止的循环,每秒运行几十次:
- 感知:摄像头、雷达、激光雷达等传感器采集到周围 360° 的原始数据。CNN 识别出车道线、行人、其他车辆、红绿灯。
- 规划:有了这些信息,规划模块要决定:是变道还是跟车,走哪条路线。全局规划用 A* 找从家到公司的最短路径,局部规划应对突然窜出的行人,快速重新规划一条避让轨迹。
- 控制:把规划出的目标轨迹转化为方向盘转角、油门和刹车的具体指令,让车平稳准确执行。
6.2 SLAM:一边走路一边画地图的黑魔法
在没有 GPS 信号的地下车库,自动驾驶车怎么知道自己在哪里?
SLAM 全称 Simultaneous Localization and Mapping(同时定位与地图构建) ,核心是让设备在未知环境中,通过自身传感器(相机、激光雷达等)同时完成两件事:
- 定位:实时估计自身位置和姿态
- 建图:构建周围环境的地图解决 “无先验地图下定位与建图相互依赖” 的问题,实现自主导航与环境感知。)(同步定位与建图 ,一边在陌生环境中移动,一边同时确定自己的位置并画出地图 )
SLAM会同时做两件事:通过激光雷达扫描周围墙壁的形状,与之前建立的局部地图匹配,反推出自己移动了多少(定位);同时把新扫描到的墙壁形状拼接到地图上,不断扩大地图(建图)。就像你走进一个全黑的屋子,摸着家具在脑中构建平面图。
常见应用场景
- 🧹 扫地机器人:精准避障不迷路
- 🚗 自动驾驶:隧道里没 GPS 也能走
- 🚁 无人机:陌生山谷自主勘探
- 🕶️ AR 眼镜:虚拟物体贴合现实环境
6.3 PID 与 MPC:如何让车顺滑行驶
PID 控制器是最朴实无华的司机:比如你要保持 60km/h 定速,上坡慢了,误差变大,P 就多给油;如果一直到不了 60,I 会多补一脚;如果速度上冲太快,D 会预测并收点油门,防止超速。参数调好了,足以应对大部分平稳路况。
MPC 模型预测控制则是老司机加预判:它会建一个车辆模型,然后计算“如果我未来三秒这样打方向、给这么点油,车子会在哪里”,并同时模拟很多种操作方案,选一个最安全最舒适的组合,然后只执行第一个 0.1 秒的动作,下个周期再计算一次。这样车就能提前转弯,平滑避障,而不是临近了才猛打方向盘。
七、AI大模型应用医疗 AI之AI 辅助医生看片子
7.1 医疗影像 AI 的核心使命
CT、MRI 等医学影像本质是灰度图像,比普通照片多了一层深度信息,可以看作三维数据。医生的精力有限,一张 CT 几百个切片,可能漏掉早期微小病灶。AI 可以用 3D CNN 对全卷数据建模,自动标出可疑区域,作为“第二双眼”辅助诊断。
7.2 影像处理五步曲
- 预处理:去噪、归一化,把不同机器拍出来的图像亮度范围统一到 0‑1 之间。
- 分割:比如用 U‑Net 卷积网络从肺部 CT 中精确勾画出肺结节区域,把病灶和正常组织分离。
- 配准:同一个患者去年和今年的片子体位可能有偏差,刚性/非刚性配准将它们对齐,方便对比观察肿瘤是增大还是缩小了。
- 特征提取:用 GLCM 等方法提取结节的纹理,比如粗糙程度、轮廓是否光滑——恶性肿瘤往往边缘毛糙,纹理不均。
- 深度学习分析:3D CNN 直接吸收整个 CT 块,自动学习哪些三维形态模式是恶性的,输出一个恶性概率,辅助医生决策。
整个过程,AI 并不替代医生,而是让医生从大量重复的筛片中解放出来,把精力集中在复杂案例上。
至此,核心内容我们已经带着大白话和底层逻辑梳理了一遍。从第一天开始怕术语,到现在应该能清晰看出:不管是文字、图片还是车流、病灶,在 AI 眼中统一都是数字,而深度学习要做的,就是在这些数字中找到规律,给出预测。希望这份笔记能成为你进入 AI 大模型世界的领路人,另本文参考了基于吕阳《AI 大模型应用开发实战》。