名词解释
在数学中,向量(也成为欧几里得向量、几何向量),指具有大小和方向的量。它可以形象化地表示为带箭头的线段。箭头代表向量的方向;线段代表向量的大小。与向量对应的量叫做数量(物理学中称标量),数量(或标量)只有大小,没有方向。
(图一 向量的表示)
思考
你在图片库中搜索白色中毛圆耳猫咪,为什么可以搜索到相似猫咪的图片?
向量嵌入
向量是现代AI大模型的通用语言和思维载体,在AI的世界里,向量不仅仅是一串数字,而是同时包含大小和方向的量。在AI的世界里,万物皆向量,回到文章思考中的问题,实际上让AI去搜索猫咪图片的时候,它看到的并不是图片的背景颜色等信息,而是一串数字,也就是所谓的向量嵌入(Embeddings),简单来说就是用数字空间关系映射真实世界的语义和特征关联,让机器能理解数据背后的逻辑。
例如,猫咪的特征说明如下:
- 毛发颜色: 1.白色、2.黑色、3.橘色
- 毛发长度: 1.短毛、2.中毛、3.长毛
- 耳朵形状: 1.尖耳、2.圆耳、3.垂耳
(图二 白色|中毛|圆耳 猫)
由上图所示,这只猫的向量就可以用[1,2,2]来表示,这些数字列表就是简单的嵌入。计算机可以通过这些数字来理解猫咪的特征。
向量数据库
什么是向量数据库?
向量数据库是一种特殊的数据库,它和普通数据库的区别在于存储对象、索引方式和查询逻辑。普通数据库聚焦结构化数据的精准匹配,而向量数据库专攻高维向量的相似性检索。
还拿图二中的猫咪举例,普通数据库和向量数据库存入猫咪特征的方式分别如下:
普通数据库存
- 名字: 猫
- 毛发颜色: 白色
- 毛发长度: 中毛
- 耳朵形状: 圆耳
向量数据库
- [1,2,2] 这串数字就代表了猫咪的各种特征
向量数据库的优势?
向量数据库可以快速找到相似的东西,例如:
- 临近毕业要写毕业论文了,一头雾水,想找相关专业的论文参考
- 周末出去玩发现天气很好,想找后面类似天气的日期再次出去玩
- 工作日上班觉得猫咪自己在家无聊,想给猫咪找一个类似的猫咪陪伴
向量数据库的工作原理?
- 转换:把文字、图片、音频、视频等信息转换成数字向量
- 存储:把转换好的向量存储在数据库中
- 搜索:把问题转换成向量
- 比较:计算问题的向量和数据库中所有向量的相似度
- 返回结果:返回最相似的结果