一 概念
● 词袋模型是一种从文本中提取特征的方法。该方法非常简单和灵活,可以用于从文档中 提取各种功能的各种方法。词袋(Bag-of-words)是描述文档中单词出现的文本的一种 表示形式。
● Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一 个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词 是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影 响而独立选择的
二 举例
举个例子来说明什么是词袋模型
● (1) John likes to watch movies. Mary likes movies too.
● (2) John also likes to watch football games.
● 这里有两个句子,把所有的词统计到一起并去重,得到词袋:
● [ "John", "likes", "to", "watch", "movies", "also", "football", "games", "Mary", "too"]
● 产生词典
● {“John”:0,”likes”:1,”to”:2,”watch”:3,”movies”:4,”also”:5,”football”:6,” games ”:7,”Mary”:8,”too”:9}
三 词袋模型
每个词表示为一个向量,向量大小为词袋大小,每个词对应一个向量只有一个位置为1,其余全为0