首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
zjujunge
掘友等级
软件开发
天行健
获得徽章 4
动态
文章
专栏
沸点
收藏集
关注
作品
赞
36
文章 36
沸点 0
赞
36
返回
|
搜索文章
最新
热门
自然语言处理入门笔记-> 感知机分类
分类(classification):预测样本所属类别的一类问题。 分类问题的目标就是给定输入样本,将其分配给种类别中的一种,其中。 如果$K = 2,则成为二分类(binary classification),否则称为多分类(multiclass classification…
机器学习基础概念学习
标签是我们要预测的事物,即简单线性回归中的 $y$ 变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。 特征是输入变量,即简单线性回归中的 $x$ 变量。简单的机器学习项目可能会使用单个特征,而比较复杂的机器学习项目可能会使用数百万个特征,按如下方…
自然语言处理入门笔记-> 隐马尔科夫模型HMM
由于词语级别的模型天然缺乏OOV召回能力,我们需要更细粒度的模型。 比词语更细的颗粒就是字符,如果字符级模型能够掌握汉字组词的规律,那么它就能够由字构词、动态的识别新词汇,而不局限于词典。 序列标注(tagging)指的是给定一个序列$x = x_1 x_2 \ldots x_…
微服务学习总结-> Zookeeper/Kafka/RocketMQ
从上图可以看出顺序写磁盘的速度比随机写内存的速度快。 指将数据直接从磁盘文件复制到网卡设备中,而不需要经过应用程序之手。 需要将一个图片展示给用户,首先将图片从磁盘中复制出来放到一个内存buf中,然后将这个buf通过Socket传输给用户,进而用户获得了图片。 零拷贝技术通过D…
自然语言处理入门笔记-> 二元语法与中文分词
由于词典分词无法消歧,如给定分词结果“商品 和服 务” 和 “商品 和 服务”,词典分词不知道哪种更合理。 统计自然语言处理的核心之一就是利用统计手法对语言建模。 语言模型(Language Model, LM) 指的就是对语言现象的数学抽象。 比如一个句子,语言模型就是计算句…
基础算法学习 -> 广度/深度优先搜索
广度优先搜索和深度优先搜索在大数据分析、NLP、搜索中广泛应用。
基础算法-> TF/IDF
假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频(TF)就是3/100=0.03。 而计算文件频率(IDF)的方法是以文件集的文件总数,除以出现“母牛”一词的文件数。所以,如果“母牛”一词在1,000份文件出现过,而文件总数是10,0…
自然语言处理入门笔记-> 字典树
分词匹配算法的瓶颈之一在于如何判断集合(词典)中是否含有字符串。如果有序集合(TreeMap)的话,复杂度是)(n是词典大小);如果用散列表(Java的HashMap,Python的dict)的话,牺牲了内存,增加了速度。 字符串集合常用字典树存储。结构如下: 字典树并不直接在…
自然语言处理入门笔记-> 词典分词
中文分词算法大致分为基于词典规则与基于机器学习这两大派别。 词典分词是最简单、最常见的分词算法,仅需一部词典和一套查词的规则即可。 基于词典分词的缺点:词典中的字符串就是词,词典之外的字符串就不是词了。 事实上,语言中的词汇量是无穷的,无法用任何词典完整收录。而语言也是时时刻刻…
自然语言处理入门笔记-> 准确率评测
准确率是衡量一个系统准确程度的标准,可以理解为一系列评测指标。 在搜索引擎、分类器、中文分词场景下的准确率本质上是下图四个集合的并集运算。 下图中“纵坐标”为预测结果,“横坐标”为标准答案。 精确率 (pricision,P) 指的是预测结果中正类数量占全部结果的比率。 召回率…
下一页
个人成就
文章被点赞
32
文章被阅读
21,171
掘力值
658
关注了
29
关注者
11
收藏集
8
关注标签
15
加入于
2018-09-05