首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
会员
登录
Lucene
2839 关注,117 文章
关注
热门
最新
最热
沧叔解码
2月前
Lucene
搜索引擎
数据结构
Lucene源码系列(二十六):DocValues-SortedSetDocValues
SortedSetDocValues和BinaryDocValues的关系就像SortedNumericDocValues和NumericDocValues的关系一样。
662
1
评论
沧叔解码
2月前
Lucene
搜索引擎
数据结构
Lucene源码系列(二十二):DocValues-NumericDocValues
本文介绍第一种DocValue类型:NumericDocValues。NumericDocValues是其他一些DocValue的基础,所以我们先行介绍。
1129
点赞
评论
沧叔解码
2月前
Lucene
搜索引擎
算法
Lucene源码系列(二十):正排索引文件构建
背景 Lucene中根据term字典和倒排可以快速查找到相关文档的id,那怎么获取文档中的字段内容呢,这就是我们今天要讲的正排数据。
221
3
评论
沧叔解码
2月前
Lucene
搜索引擎
算法
Lucene源码系列(十九):多值编码压缩算法
之前在看索引文件构建的源码时,会经常碰到对于正整数的批量压缩应用,而且有好几个不同的类,当时都是把它们当成黑盒忽略,现在花了点时间,总算是把这些不同应用场景都区分了。
1067
2
评论
沧叔解码
3月前
Lucene
搜索引擎
数据结构
Lucene源码系列(十七):词向量索引文件构建
词向量存储的数据和倒排索引的数据是完全一样的,但是因为使用的场景不同导致二者的存储结构不同。倒排索引用于检索,词向量的一个最经常的应用是高亮。
722
1
评论
沧叔解码
5月前
Lucene
搜索引擎
数据结构
Lucene源码系列(十四):内存中倒排信息的读取
在上一篇文章中,我们已经介绍了倒排数据在内存中的存储结构以及如何一步步构建的,本文就接着来看怎么读取内存中的倒排数据。本文先分析源码,最后再以一个实际的例子来说明如何读取相关数据。
186
1
评论
沧叔解码
5月前
Lucene
搜索引擎
数据结构
Lucene源码系列(十三):内存中倒排信息的构建
针对Lucene在内存中的倒排结构的超级硬核的解析。凭良心讲,写这篇文章难度很大,读者需要有很大的耐心来看,不要急于求成想一下子看明白,建议收藏,看完应该值得你点个赞!
1335
2
评论
政采云技术团队
5月前
Lucene
从源码看 Lucene 的文档写入流程
在阅读源码前,这里先对源码中比较重要、常用的几个类做一个简单介绍,以便有一个初步概念,更容易的理解整个流程。
1115
1
1
沧叔解码
5月前
Lucene
搜索引擎
数据结构
Lucene源码系列(十):FST构建
背景 我们都知道检索引擎的核心是倒排,倒排就是term所在的文档列表(当然可以包含term在对应文档中的详细位置信息),但是怎么通过term来定位其倒排数据呢?这个问题的本质就是term映射倒排位置的
696
4
评论
沧叔解码
5月前
Lucene
数据结构
算法
Lucene源码系列(九):可持久化的位图实现方案
如果你的应用内存无法装载位图或者为了内存的占用率,需要将位图持久化到文件系统,实现按需装载,这篇文章可以让你知道lucene中可持久化的位图的实现方式,基于这个我们也可以按需自定义开发。
616
2
评论
政采云技术团队
9月前
Lucene
Lucene 查询原理解析
笔者在日常使用 Elasticsearch 的过程中,经常需要对一些慢查询做一些分析。由于对 Elasticsearch 底层引用的 Lucene 一知半解,常常在解读 Elasticsearch
1177
7
评论
weiziyoung
9月前
Lucene
Luecene源码解析——倒排表生成
倒排表其实算是检索引擎层面最核心的部分了,也是区别于传统数据库的一个重要feature, 那倒排表是什么?存什么数据、 怎么存储落盘,就是本章最核心要研究的问题。
312
1
2
极客行路
10月前
Lucene
Lucene 压缩算法 - Frame Of Reference 家族
Lucene 压缩算法 Frame Of Reference (FOR) 和 Patched Frame Of Reference (PFOR)
538
1
评论
RG
1年前
Lucene
Lucene
「这是我参与11月更文挑战的第3天,活动详情查看:2021最后一次更文挑战」 什么是全文检索 数据分类 我们生活中的数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的
251
2
评论
vivo互联网技术
1年前
Lucene
搜索引擎
后端
深度解析 Lucene 轻量级全文索引实现原理
Lucene的相关使用心得,内容涵盖索引的生成、管理及搜索功能等内容。本文介绍了在轻量级的数据搜索中,深度解析Lucene如何实现全文索引。
1558
7
评论
weiziyoung
1年前
Lucene
Lucene源码解析——DocValue存储方式
什么是DocValue? 讲完第一章的行式存储StoredField,接下来讲列式存储的DocValue。 什么叫列式存储?它和行式存储的区别是什么?一图以示之,如果我们要存储这个具有3个field,
858
4
评论
weiziyoung
1年前
Lucene
Lucene源码解析——StoredField存储方式
StoredField就是我们所说的正排数据,它是一种行式存储,类似于mysql中的行数据,StoredField承担存储最原始的数据的角色重要性不言而喻
768
3
评论
录信数软
1年前
Lucene
后端
基于Lucene实现万亿级多维检索与实时分析
5月29日,录信数软技术总监郑其华在QCon全球软件开发者大会分享了“基于Lucene实现万亿级多维检索与实时分析”的主题演讲。
296
点赞
评论
呼延十
1年前
Lucene
详解快速选择算法(Lucene实现源码分析)
计算集合中第k大(小)的元素. 就是topK相关系列的问题,但是选择算法只需要找到第k个就好. 定义的接口除了选择还有交换. Lucene对于选择算法有两个实现,快速选择算法及基数选择算法.本文将详细分析快速选择算法的源码. 该类的路径是: org.apache.lucene.…
452
2
2
呼延十
1年前
Lucene
lucene系列(五)索引格式之fdm文件
首先学习一下 lucene 的索引文件结构。本文介绍 Field 相关信息的存储文件格式。 当你在写入 field 信息时,如果像下面这样,指定了 Stored. 也就是希望 lucene 能够保存你的原始 Field 信息,那么就会生成三个文件 .fdt .fdm .fdx.…
574
1
评论
温馨提示
当前操作失败,如有疑问,可点击申诉