Stock vector

208 阅读1分钟

在自然语言处理中,有大量的未标记文本。当计算机处理文本时,有必要将文本转换成计算机能够理解的格式。因此,研究人员提出了“单词向量”,它使用一系列数字来表示单词。最简单的方法是one-hot向量,表示单词出现的位置为1,其余表示为0。但是这种方法有两个主要缺点:

1、词向量的维数等于字典的大小。如果字典很大,向量的维数就很大,从而使得计算不方便。

2、这种表示不能反映词与词之间的相似性,对文本处理和语境语义分析帮助不大。

在过去的股市预测中,输入的往往是单只股票或者单个指数。因此,输入维度不会太大。但当输入的是多只股票的历史数据时,输入维度会增加到几千甚至几百万。此时,如果我们直接利用这些原始信息来预测股市,可能会由于信息冗余和无关信息的影响而导致更大的误差。因此,我们引入了股票市场矢量化的概念,称为股票向量。股票向量指的是词向量的思想。首先对股票向量降维,然后在低维空间表示。最后,利用股票向量对股市进预测。

股票向量简单来说就是对词向量经过降维处理后的词向量,包含的信息更加具有相关性。

借鉴此,我们可以结合其他领域提出符合该领域的新的向量。