首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
NLP
Tw_xxxx
创建于2024-11-15
订阅专栏
NLP
暂无订阅
共12篇文章
创建于2024-11-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
XLNet
论文链接 排列语言模型(Permutation Language Modeling) XLNET结合自回归语言模型和自编码语言模型的优点,提出了排列语言模型 我们对所有token进行排列组合。通过不同
Transformer
模型架构 Embedding Embedding 可以将高维的离散文本数据映射到低维的连续向量空间。这不仅减小了输入数据的维度,也有助于减少数据的稀疏性,提高模型的性能和效率。 同时,词嵌入可以捕捉单
Transformer-XL
论文链接 前言 Transformer-XL(extra long)是为了进一步提升 Transformer 建模长期依赖的能力。它的核心算法包含两部分:片段递归机制(segment-level re
Tokenizer分词算法
定义 Tokenizer 可以将文本转换成独立的 token 列表,进而转换成输入的向量成为计算机可以理解的输入形式。 概述 根据不同的切分粒度可以把tokenizer分为: 基于词的切分,基于字的切
RNN和LSTM
什么是RNN和LSTM RNN(Recurrent Neural Network),循环神经网络,是一种用来处理序列数据的深度学习模型。这里的序列问题大致可以分为两类:时间序列和文本。需要指出的是,当
NLP评价指标
BLEU(Bilingual Evaluation Understudy) 定义:BLEU是一种用于评估机器翻译质量的指标,它通过比较机器翻译输出和一组参考翻译之间的n-gram重叠来评分。 计算方式
NLP技术发展历程
背景 自然语言处理(Natural Language Processing)简单来说即是计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理
BGE
前言 Foundation Model有两个代表,一个是 Large Language Model,另一个是 Embedding Model。 前者聚焦文本空间,其形式化功能为text -> text
Bert及其变种
Bert 论文链接 BERT的基础结构仍然是Transformer,并且仅有Encoder部分,因为它并不是生成式模型; BERT是一种双向的Transformer,这其实是由它的语言模型性质决定,它
知识图谱
知识图谱的定义 是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系.其基本组成单位是 “实体-关系-实体” 三元组, 以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知
向量检索
引言 向量检索,即根据一个向量Q从海量的向量库中寻找TopK个与Q最相似或者距离最近的向量,其在工业中有着广泛的应用场景,比如图像检索、文本语义检索以及推荐系统中基于User与Item的Embeddi
文本向量嵌入
何为Embedding Embedding 是将高维数据映射到低维空间的方法,通常用于将离散的、非连续的数据(文字、图片、音频)转换为连续的向量表示,以便于计算机进行处理 简单来说,Embedding