首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
doubledogs
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
16
文章 16
沸点 0
赞
16
返回
|
搜索文章
最新
热门
word2vec
词袋模型缺点 高维稀疏矩阵 无法表达不同词之间的语义相似性 语言模型 用一个词的周边的其他词来表示该词 语言模型:判断一句话出现的概率=>简化成词出现的概率 首次提出将一个词映射为一个固定大小的向量化
tf-idf实战
语料 corpus = [ '我在北京天安门', '选择AI,就是选择未来', '要么996要么icu', '我爱加班,加班使我快乐' ] 分词 词袋模型 tfidf
tf-idf 文本特征表示
概念 余弦相似度 ● 我们以二维向量为例,计算向量(x1,y1)与向量(x2,y2)的余弦相似度。 我们可以得到公式: ● 当我们把这个概念推广到多维 余弦值的范围在[-1,1]之间,值越趋近于1,代
词袋模型
一 概念 ● 词袋模型是一种从文本中提取特征的方法。该方法非常简单和灵活,可以用于从文档中 提取各种功能的各种方法。词袋(Bag-of-words)是描述文档中单词出现的文本的一种 表示形式。 ● B
jieba去除停用词&词性标注
去除停用词 停用词过滤,是文本分析中一个预处理方法。它的功能是过滤分词结果中的噪声(例如:的、是、啊等) 词性标注 POS,Part-of-speech tagging的缩写 标注句子分词后每个词的词
jieba添加自定义词典
添加自定义词典 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdi
jieba分词实战
jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型
jieba实现中文分词
结巴分词 “结巴”中文分词:做最好的 Python 中文分词组件 特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常
中文分词
一 概念 ● “词”这个概念一直是汉语言学界纠缠不清的问题,“词是什么”(词的抽象定义)和 “什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个明确的表达。 ● 中文分词的难点在于汉语结构
NLP简述
一 概念 NLP 即 Natural Language Processing,指使用计算机处理和分析我们的语言。现也指能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。常见NLP任务: ●
下一页
个人成就
文章被点赞
17
文章被阅读
12,010
掘力值
662
关注了
2
关注者
4
收藏集
0
关注标签
6
加入于
2022-09-30