Embedding 的中文意思是嵌入、嵌入向量,在 AI 领域,我们也叫它高维稠密向量,本质就是把就是把文本、图片、音频、用户、商品等对象转换成一串数字向量。
例如一句话:“我想订一张去上海的机票”
可能会被转换成类似:
[0.12, -0.44, 0.87, ...]
这串数字本身不适合人读,但适合机器计算。关键是:语义相近的内容,向量距离也会更近。
比如:
“猫” 和 “小猫” 距离近
“猫” 和 “宠物” 距离较近
“猫” 和 “发动机” 距离远
它的核心作用有 3 个:
- 把抽象信息数字化
比如把 “苹果”“香蕉”“汽车” 这类文字、图片、声音等信息,转换成一串有意义的数字数组,让计算机能 “读懂” 这些内容。
- 保留语义关系
语义越相近的内容,对应的向量在高维空间里的距离就越近。
举个例子:“苹果” 和 “香蕉” 的向量距离很近(都属于水果),而 “苹果” 和 “汽车” 的向量距离就很远(语义完全无关);哪怕用词不同,比如 “我想学编程” 和 “我想学代码”,因为语义一致,它们的向量也会非常接近。
- 方便计算机做各类任务
Embedding 常用于:语义搜索、相似文本匹配、推荐系统、聚类、去重、RAG 检索增强生成、分类、排序、召回等。
用一个通俗的比喻来理解:
就像把每个人的性格、爱好、长相,压缩成一段独一无二的 “特征编码”,计算机不用看真人,只看这段编码,就能快速判断谁和谁更像、谁和谁兴趣更匹配。