推荐系统不去假定用户的兴趣，而是利用类似、类比的方法，得到相似的用户群，认为同一种人群喜欢的物品，目标用户也会喜欢。也就

One-hotting -> Embedding

在自然语言处理中，One-hotting 是用来做word的数值化的一个工具，它能唯一标志每一个词，但它有一个缺点，就是默认了每一个词都是无关的，这显然是不符合现实的；

Embedding向量可以体现出词的相关性。具体的做法是，将一个词表示成一个稠密的向量，就可以计算词的相似度，进而计算句子的相似度，也可以直接把这个稠密向量作为特征输入给高级的预测模型

Andrew Wu在自然语言处理中，举了词语类比推理的例子；

这个问题需要将左边的还有右边这4个词的嵌入向量提供给神经网络，就像我们之前做的那样来预测中间的单词是什么，来预测中间的目标词，这也可以用来学习词嵌入。

最简单的学习词嵌入：

在自然语言处理中，词嵌入Embedding是用来表达词语之间的相关性的；

使用深度学习，来学习出这样一个Embedding矩阵；

深度学习的本质是：通过一大堆具有x->function->y关系的x,y的样本，来学习出function;前提

在这里如何定义词语之间的相关性？

认为出现在同一句话中的词就具有某种相关性。
数据准备：

具体地，选取一句话中的任意一个词作为 上下文 context c，作为样本的input x，再选取任意上下文附近的一个词作为目标词 t 作为样本的output y；并以窗口滑动的方式选取若干c、t 充实样本库；
模型搭建
- 样本数值化
  
  使用 One-hotting 编码，将词向量化。初始状态，假设词与词之间是无关的，从 One-hotting到Embedding就是一种无关到相关的过程
- One - hotting -> Embedding
  
  假设一个 Embedding 矩阵。最终的Embedding矩阵就是word2vec追求的结果
- Embedding -> Softmax输出
  
  问题，由于词的数量很多，导致Softmax过于庞大从而计算复杂，做一个优化处理：
  - 多层级的二分类
  - 负采用：多分类问题变二分类问题2

用目标词附近的一个单词作为上下文，实际研究中，用目标此的前几个单词作为上下文是常见的作法

使用word2vec学习词嵌入

GloVe学习词嵌入

Glove 论文

什么是 GloVe?

词向量的背景

GloVe 的由来?

Glove的具体实现？

实验数据

推荐系统