首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
文本Embedding
风雨中的小七
创建于2022-08-15
订阅专栏
梳理从word2vec等静态词表征,到文本表征的各种实现方案
暂无订阅
共7篇文章
创建于2022-08-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
无所不能的Embedding7 - 探索通用文本表达[FastSent/InferSent/GenSen/USE]
这一章我们来聊聊通用文本框架,直接使用它们的场景已经不多,但你能在各个前沿方法中看到它们的影子。本章包括:为啥需要通用文本表征,为什么部分监督模型效果不好,哪些模型结构和训练任务得到的表征更加通用
无所不能的Embedding6 - 跨入Transformer时代~模型详解&代码实现
跨入transformer时代,看看抛开CNN和RNN,如何只基于attention对不定长的序列信息进行提取。这里选取WMT的英翻中任务,我们来一边聊模型insight一边看代码实现
无所不能的Embedding5 - skip-thought的兄弟们[Trim/CNN-LSTM/quick-thought]
Trim,CNNLSTM,QuickThought分别针对Skip-thought框架下,RNN Encoder不能并行,Decoder计算耗时,训练样本构建等方面给出了新方案
无所不能的Embedding4 - skip-thought & tf-Seq2Seq源码解析
依旧是通用文本表征,skip-thought使用encoder-decoder框架通过拟合语言模型来学习包含上下文语义的文本向量,代码实现详见Embedding~
无所不能的Embedding3 - word2vec->Doc2vec[PV-DM/PV-DBOW]
这一节我们来聊聊不定长的文本向量,暂不考虑任务相关的句子表征,只看通用文本向量,根据文本长短有sentence2vec, paragraph2vec,doc2vec等等,完整代码详见Embedding
无所不能的Embedding1 - 词向量三巨头之Word2vec模型详解&代码实现
这个系列梳理以word2vec为首的各类文本表征方案。第一章希望较全面的梳理Word2vec从模型结构,推导,训练,和基于TF的实现细节,完整代码详见github-Embedding
无所不能的Embedding2 - 词向量三巨头之FastText详解
Fasttext包括两个模型,一个文本分类模型胜在轻量高效,一个词向量模型,主要创新在于把单词分解成字符解决OOV问题。这里拿quora数据集尝试了下Fasttext的效果,代码详见Embedding