什么是特征工程
- 特征工程将我们的数据转化为成我们模型能够理解的形式
- 特征工程是将原始的数据转化为更好表达问题本质的特征的过程
- 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已
深度学习出现之前,特征工程是由人手工提取
深度学习出现之后,特征工程由神经网络来做
常见的特征工程方法
Tabular Data Features
- int/float:可以直接使用
- Categorical Data: 使用one-hot 编码
- Date-time:featur list like: [year, month, day, day_of_year, week_of_year, day_of_week]
- Feature combination: 笛卡尔乘积
Text Features
-
Represent text as token features
-
- Bag of Word model(词袋模型):,缺陷是要精心设计词典,同时导致顺序信息缺失
-
- Word Embedding: 词向量 (Word Embeddings)通过对大量的文本语料进行训练,对每一个词 (word type) 返回一个n维的实数向量。向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务
-
Pre-trained language models
Image/Video Featrues
使用神经网络进行特征提取,倒数第二层的输出作为特征