表示学习
什么是表示学习
嵌入(Embedding)的价值
降维
在许多实际问题中,原始数据的维度往往非常高。
- 例如,在自然语言处理中,如果使用One-hot编码来表示 词汇,其维度等于词汇表的大小,可能达到数十万甚至更高。
通过Embedding,我们可以将这些高维数据映射到一 个低维空间,大大减少了模型的复杂度。
捕捉语义信息
Embedding不仅仅是降维,更重要的是,它能够捕捉到数据的语义信息。
- 例如,在词嵌入中,语 义上相近的词在向量空间中也会相近。这意味着Embedding可以保留并利用原始数据的一些重要信息。
适应性
与一些传统的特征提取方法相比,Embedding是通过数据驱动的方式学习的。这意味着它能够自动适应 数据的特性,而无需人工设计特征。
泛化能力
在实际问题中,我们经常需要处理一些在训练数据中没有出现过的数据。由于Embedding能够捕捉到 数据的一些内在规律,因此对于这些未见过的数据,Embedding仍然能够给出合理的表示。
可解释性
尽管Embedding是高维的,但我们可以通过一些可视化工具(如t-SNE)来观察和理解Embedding的 结构。这对于理解模型的行为,以及发现数据的一些潜在规律是非常有用的
Embedding
是 表示学习 中的一种特定形式 将高维数据 映射到地位空间中的向量表示
词义关系
- 国王-男人
- 女王-女人