稀土掘金 稀土掘金
    • 首页
    • 沸点
    • 课程
    • 数据标注 HOT
    • AI Coding
    • 更多
      • 直播
      • 活动
      • APP
      • 插件
    • 直播
    • 活动
    • APP
    • 插件
      • 搜索历史 清空
        • 写文章
        • 发沸点
        • 写笔记
        • 写代码
        • 草稿箱
        创作灵感 查看更多
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
0 /100
NLP
订阅
avatar
Francis_Li
更多收藏集

微信扫码分享

微信
新浪微博
QQ

3篇文章 · 0订阅
  • 搜索引擎网页去重算法解析
    相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的。 即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的! 搜…
    • 朝阳GAI爷
    • 7年前
    • 263
    • 1
    • 评论
  • 动手实践word2vec和doc2vec模型
    当我们提及word2vec的时候,可能很多人都会联想到CBOW(Continuous Bag of-Words)、Skip-gram模型以及其算法。 注:CBOW与Skip-gram模型是研究者在NNLM(Neural Network Language Model)和C&W模型…
    • JasminZhao
    • 7年前
    • 5.6k
    • 18
    • 1
    人工智能 NLP
  • 搜索引擎实践 (算法篇)
    搜索引擎主要 3 个部件构成. 第一, hadoop 集群, 用于生成大规模搜索和实时索引; 第二, ElasticSearch 集群, 提供分布式搜索方案; 第三, 高级搜索集群, 用于提供商业搜索的特殊功能. 商业电商搜索由于搜索的特殊性, 独立的 ElasticSearch 集群是无法满足多样的算法需求的, 我们在搜索的各个部件上都有相应的算法插件, 用于构建商业电商搜索引擎的算法体系.
    • SDKcn
    • 10年前
    • 3.1k
    • 89
    • 评论
    算法
    搜索引擎实践 (算法篇)