特征工程

159 阅读1分钟

什么是特征工程

  • 特征工程将我们的数据转化为成我们模型能够理解的形式
  • 特征工程是将原始的数据转化为更好表达问题本质的特征的过程
  • 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

深度学习出现之前,特征工程是由人手工提取
深度学习出现之后,特征工程由神经网络来做

常见的特征工程方法

Tabular Data Features

  • int/float:可以直接使用
  • Categorical Data: 使用one-hot 编码
  • Date-time:featur list like: [year, month, day, day_of_year, week_of_year, day_of_week]
  • Feature combination: 笛卡尔乘积

Text Features

  • Represent text as token features

    • Bag of Word model(词袋模型):,缺陷是要精心设计词典,同时导致顺序信息缺失
    • Word Embedding: 词向量 (Word Embeddings)通过对大量的文本语料进行训练,对每一个词 (word type) 返回一个n维的实数向量。向量表征了每个词的单词的句法和语义信息,这些信息可用于解决各种NLP任务
  • Pre-trained language models

Image/Video Featrues

使用神经网络进行特征提取,倒数第二层的输出作为特征