AI编程基础学习：什么是 Embedding？Embedding 的中文意思是嵌入、嵌入向量，在 AI 领域，我们也叫它

Embedding 的中文意思是嵌入、嵌入向量，在 AI 领域，我们也叫它高维稠密向量，本质就是把就是把文本、图片、音频、用户、商品等对象转换成一串数字向量。

例如一句话：“我想订一张去上海的机票”

可能会被转换成类似：

[0.12, -0.44, 0.87, ...]

这串数字本身不适合人读，但适合机器计算。关键是：语义相近的内容，向量距离也会更近。

比如：

“猫” 和 “小猫”        距离近
“猫” 和 “宠物”        距离较近
“猫” 和 “发动机”      距离远

它的核心作用有 3 个：

比如把 “苹果”“香蕉”“汽车” 这类文字、图片、声音等信息，转换成一串有意义的数字数组，让计算机能 “读懂” 这些内容。

语义越相近的内容，对应的向量在高维空间里的距离就越近。

举个例子：“苹果” 和 “香蕉” 的向量距离很近（都属于水果），而 “苹果” 和 “汽车” 的向量距离就很远（语义完全无关）；哪怕用词不同，比如 “我想学编程” 和 “我想学代码”，因为语义一致，它们的向量也会非常接近。

Embedding 常用于：语义搜索、相似文本匹配、推荐系统、聚类、去重、RAG 检索增强生成、分类、排序、召回等。

用一个通俗的比喻来理解：

就像把每个人的性格、爱好、长相，压缩成一段独一无二的 “特征编码”，计算机不用看真人，只看这段编码，就能快速判断谁和谁更像、谁和谁兴趣更匹配。