特征工程是什么

23 阅读1分钟

这篇文章主要讨论特征工程。

特征处理的过程是对数据进行微观和宏观投影的过程,我们在处理特征时,变化的是我们观察的维度,特征本身并没有变化。

例如,如果将光做诶一个特征,你只能告诉模型这里有一条光线,但是如果加上一个三棱镜,你便可以告诉模型,这里有七种颜色的光。

从不同的角度刻画数据的特征,就是在寻找特征的特征。

合理的数据变换能帮助现有模型更好地理解样本中的信息,我们可以对数据进行离散化处理,也可以做归一化处理等。

独热编码(one-hot encoding)是一种编码方式,它的最大特点是能够将数据投射到高维空间,并同时保证它们的正交关系。

在AI大模型中,一个关键技术是预训练模型,它的做法如下:

  1. 将语料中的所有单词做独热编码,映射到高维空间中,得到单词的高维向量表达。
  2. 采用对比学习的方法,来训练一个模型,刻画单词之间的相似度。

如何衡量语料中词与词的关系呢?有两种方法:

  1. 跳字模型(Skip-gram)
  2. 连续词袋模型CBOW(Continous Bag of Words)

跳字模型的目标是通过给定一个中心词用它来预测前后单词。连续词袋模型的目标是通过前后词来预测中心词。


此文章为极客时间9月份Day06学习笔记,内容来自《AI大模型系统实战》课程。