论文地址：Multimodal Deep Learning-----多模态（一）

2 Introducing the modalities

2.1 State-of-the-art in NLP

2.1.2 Word Embeddings

在早期，通过使用非常基本的方法，如独热编码或词袋，将文本转换为等价的向量并且不丢失信息。
这些方法存有一定的问题，例如维度灾难以及泛化问题。
前者是因为随着词汇量的增加，词向量的特征尺寸也在增加，这就造成了稀疏矩阵以及高纬度的向量。
后者是因为词汇之间的相似性没有被捕捉到。

值得注意的是，尽管嵌入试图表示词的意义，并在一定程度上表示词的意义，但无法捕捉到词在给定语境中的语义。这是由于在传统的嵌入技术中，单词具有静态的预计算表示。
在传统的嵌入技术中，词语具有静态的预计算表示。这意味着每个词语都被映射到一个固定的向量表示，这个向量表示不会随着上下文或任务的变化而改变。
这种静态嵌入技术的一个缺点是无法捕捉到词语的上下文相关性。在自然语言处理任务中，同一个词语可能在不同的上下文中具有不同的含义或语义关系。例如，单词 "bank" 有 $\textcolor{blue}{银行}$ 的意思，同时也具有 $\textcolor{blue}{河岸}$ 的含义。

为了解决这个问题，提出了一种动态嵌入技术，例如上下文嵌入（contextual embedding）。上下文嵌入技术可以根据上下文和任务动态地生成词语的表示。这意味着相同的词语在不同的上下文中会有不同的嵌入表示，可以更好地捕捉到词语的上下文相关性。
例如，Transformer模型中的BERT（Bidirectional Encoder Representations from Transformers）就是一种上下文嵌入技术。它通过训练一个大规模的语言模型，可以根据上下文预测缺失的词语，从而学习到词语的上下文相关表示。这种上下文嵌入技术在很多自然语言处理任务中取得了显著的性能提升。
总之，与传统的静态嵌入技术相比，动态嵌入技术能够更好地捕捉到词语的上下文相关性，从而提高了自然语言处理任务的性能。