一、向量(Vector)

46 阅读3分钟

名词解释

在数学中,向量(也成为欧几里得向量、几何向量),指具有大小和方向的量。它可以形象化地表示为带箭头的线段。箭头代表向量的方向;线段代表向量的大小。与向量对应的量叫做数量(物理学中称标量),数量(或标量)只有大小,没有方向。

向量的表示.png

(图一 向量的表示)

思考

你在图片库中搜索白色中毛圆耳猫咪,为什么可以搜索到相似猫咪的图片?

向量嵌入

向量是现代AI大模型的通用语言思维载体,在AI的世界里,向量不仅仅是一串数字,而是同时包含大小方向的量。在AI的世界里,万物皆向量,回到文章思考中的问题,实际上让AI去搜索猫咪图片的时候,它看到的并不是图片的背景颜色等信息,而是一串数字,也就是所谓的向量嵌入(Embeddings),简单来说就是用数字空间关系映射真实世界的语义和特征关联,让机器能理解数据背后的逻辑。


例如,猫咪的特征说明如下:

  • 毛发颜色: 1.白色、2.黑色、3.橘色
  • 毛发长度: 1.短毛、2.中毛、3.长毛
  • 耳朵形状: 1.尖耳、2.圆耳、3.垂耳

企业微信20251211-154543.png

(图二 白色|中毛|圆耳 猫)

由上图所示,这只猫的向量就可以用[1,2,2]来表示,这些数字列表就是简单的嵌入。计算机可以通过这些数字来理解猫咪的特征。

向量数据库

什么是向量数据库?

向量数据库是一种特殊的数据库,它和普通数据库的区别在于存储对象索引方式查询逻辑。普通数据库聚焦结构化数据的精准匹配,而向量数据库专攻高维向量的相似性检索。


还拿图二中的猫咪举例,普通数据库和向量数据库存入猫咪特征的方式分别如下:

普通数据库存

  • 名字: 猫
  • 毛发颜色: 白色
  • 毛发长度: 中毛
  • 耳朵形状: 圆耳

向量数据库

  • [1,2,2] 这串数字就代表了猫咪的各种特征
向量数据库的优势?

向量数据库可以快速找到相似的东西,例如:

  • 临近毕业要写毕业论文了,一头雾水,想找相关专业的论文参考
  • 周末出去玩发现天气很好,想找后面类似天气的日期再次出去玩
  • 工作日上班觉得猫咪自己在家无聊,想给猫咪找一个类似的猫咪陪伴
向量数据库的工作原理?
  • 转换:把文字、图片、音频、视频等信息转换成数字向量
  • 存储:把转换好的向量存储在数据库中
  • 搜索:把问题转换成向量
  • 比较:计算问题的向量和数据库中所有向量的相似度
  • 返回结果:返回最相似的结果