首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
NLP
zjujunge
创建于2022-11-09
订阅专栏
NLP Tech Study
暂无订阅
共12篇文章
创建于2022-11-09
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
基础算法-> 排序
排序是按照某种顺序排列序列元素的一种算法。输出是输入序列的重新排序。 排序是计算机科学中的重要算法,排序有时可以显著降低问题的复杂度,可以使用排序作为减少查找复杂度的一种技术。 基本思想:先将整个待排序的记录序列分割为若干子序列,分别进行直接插入排序,待整个序列中的记录"基本有…
Python for Everybody
Ref Python for Everybody py4e code Audio Versions of All Lectures We have podcasts of audio versions
自然语言处理入门->信息抽取、文本聚类、文本分类
指两个离散型随机变量$X$与$Y$的相关程度的度量。 有了左右信息熵和互信息之后,将两个指标低于一定阈值的片段过滤,剩下的片段按频次降序排列,截取最高频次的$N$个片段即完成了词语提取流程。 PageRank:一种用于排序网页的随机算法。它的工作原理是将互联网看作是有向图,互联…
自然语言处理入门笔记-> 准确率评测
准确率是衡量一个系统准确程度的标准,可以理解为一系列评测指标。 在搜索引擎、分类器、中文分词场景下的准确率本质上是下图四个集合的并集运算。 下图中“纵坐标”为预测结果,“横坐标”为标准答案。 精确率 (pricision,P) 指的是预测结果中正类数量占全部结果的比率。 召回率…
自然语言处理入门笔记-> 词典分词
中文分词算法大致分为基于词典规则与基于机器学习这两大派别。 词典分词是最简单、最常见的分词算法,仅需一部词典和一套查词的规则即可。 基于词典分词的缺点:词典中的字符串就是词,词典之外的字符串就不是词了。 事实上,语言中的词汇量是无穷的,无法用任何词典完整收录。而语言也是时时刻刻…
自然语言处理入门笔记-> 字典树
分词匹配算法的瓶颈之一在于如何判断集合(词典)中是否含有字符串。如果有序集合(TreeMap)的话,复杂度是)(n是词典大小);如果用散列表(Java的HashMap,Python的dict)的话,牺牲了内存,增加了速度。 字符串集合常用字典树存储。结构如下: 字典树并不直接在…
自然语言处理入门笔记-> 二元语法与中文分词
由于词典分词无法消歧,如给定分词结果“商品 和服 务” 和 “商品 和 服务”,词典分词不知道哪种更合理。 统计自然语言处理的核心之一就是利用统计手法对语言建模。 语言模型(Language Model, LM) 指的就是对语言现象的数学抽象。 比如一个句子,语言模型就是计算句…
自然语言处理入门笔记-> 感知机分类
分类(classification):预测样本所属类别的一类问题。 分类问题的目标就是给定输入样本,将其分配给种类别中的一种,其中。 如果$K = 2,则成为二分类(binary classification),否则称为多分类(multiclass classification…
自然语言处理入门笔记-> 词性标注、命名实体识别
词性(Part-Of-Speech, POS):单词的语法分类。作用是提供词语的抽象表示。 词性标注集:所有词性集合。 词性标注:为句子中每个单词预测一个词性标签的任务。 边界通过{B, M, E, S}确定,其类别可以通过B-nt等附加类别的标签来确定。
基础算法-> TF/IDF
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频(TF)就是3/100=0.03。 而计算文件频率(IDF)的方法是以文件集的文件总数,除以出现“母牛”一词的文件数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,0…
基础算法学习 -> 广度/深度优先搜索
广度优先搜索和深度优先搜索在大数据分析、NLP、搜索中广泛应用。
自然语言处理入门笔记-> 隐马尔科夫模型HMM
由于词语级别的模型天然缺乏OOV召回能力,我们需要更细粒度的模型。 比词语更细的颗粒就是字符,如果字符级模型能够掌握汉字组词的规律,那么它就能够由字构词、动态的识别新词汇,而不局限于词典。 序列标注(tagging)指的是给定一个序列$x = x_1 x_2 \ldots x_…
机器学习基础概念学习
标签是我们要预测的事物,即简单线性回归中的 $y$ 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。 特征是输入变量,即简单线性回归中的 $x$ 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方…