首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
NLP
订阅
Francis_Li
更多收藏集
微信扫码分享
微信
新浪微博
QQ
3篇文章 · 0订阅
搜索引擎网页去重算法解析
相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。 即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的! 搜…
动手实践word2vec和doc2vec模型
当我们提及word2vec的时候,可能很多人都会联想到CBOW(Continuous Bag of-Words)、Skip-gram模型以及其算法。 注:CBOW与Skip-gram模型是研究者在NNLM(Neural Network Language Model)和C&W模型…
搜索引擎实践 (算法篇)
搜索引擎主要 3 个部件构成. 第一, hadoop 集群, 用于生成大规模搜索和实时索引; 第二, ElasticSearch 集群, 提供分布式搜索方案; 第三, 高级搜索集群, 用于提供商业搜索的特殊功能. 商业电商搜索由于搜索的特殊性, 独立的 ElasticSearch 集群是无法满足多样的算法需求的, 我们在搜索的各个部件上都有相应的算法插件, 用于构建商业电商搜索引擎的算法体系.