问题发明”苹果“这个词之前, 人们如何描述苹果呢?

通过描述颜色大小形状纹理特征等，可以对苹果清晰的定义

将这些特征用数字描述得到一个数组即 “向量”

这样复杂的图形变成了数字计算机就可以识别了

新的苹果出现计算机仍然可以认识苹果吗

即使出现新的苹果这些苹果在向量数据库中离的很近相似度很高

当今的人工智能通过上千个维度来学习训练大模型当AI大模型遇到庞大的向量数据库

喂给大模型的词汇都会先转换成向量数据

当训练数据中出现多组类似的语言时在向量数据组成的高维空间相近的词汇就会离的更近大语言模型就可以逐渐捕捉到 词汇间的语义和语法

比如大模型会很明白苹果西瓜的语义上接近但是和公交车相差甚远

此时transfermer架构开始发挥作用 从每个词出发观察和其他词之间的关系权重

例如一句话中["我" ”昨天“ ”买的“ ”苹果“ ”很好吃“],

很好吃和我的关系权重最大

这个很好吃和我 权重结果被当作新的维度记录下来

这样一句话也转换成了带权重的向量

语言模型经过查询计算生成权重最高的答案输出给你一次问答就完成了

实际上大模型推理的过程更为复杂, 需要处理文本图像音视频等大量非结构化数据并转换为向量数据进行学习这些数据的向量维度高达上千

传统数据库只能进行行列检索

向量数据库将向量数据组成一个立体高维空间, 在空间中进行模糊检索能够快速输出权重最高的答案