首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
沧叔解码
掘友等级
大头兵
|
杭州华为
大头兵的消亡史
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
26
文章 25
沸点 1
赞
26
返回
|
搜索文章
最新
热门
Lucene源码系列(三十四):分词器的框架设计
本文介绍Lucene中分词器这个组件,目的不是为了介绍具体的分词算法实现,而是介绍Lucene中分词模块的框架设计,从而在我们的业务场景中,知道如何基于Lucene分词框架自定义满足业务需求的分词器。
Lucene源码系列(三十三):文档删除和DocValues更新
本文主要介绍Lucene中文档删除和DocValues更新的处理逻辑。重点掌握删除范围的设计实现,我们有类似场景也可以借鉴。
Lucene源码系列(三十二):索引文件删除策略
在上一篇文章中我们介绍了IndexCommit粒度的索引删除策略,本文要介绍的是文件粒度的索引文件删除策略。因为在索引的生命周期过程中,会产生一些无用的文件,这些文件需要删除减少资源占用。
Lucene源码系列(三十一):索引删除策略
本文介绍Lucene中索引删除策略,它是以IndexCommit为粒度进行管理的,本文是为了后面介绍文件粒度管理做铺垫。
Lucene源码系列(三十):segments_N索引文件格式
segments_N文件 简介 在调用IndexWriter.commit方法后,索引目录会生成segments_N一个文件,用来描述当前索引目录中所有有效的段的信息,也就是si文件。
Lucene源码系列(二十九):fnm索引文件格式
后缀为fnm文件是存储索引的全部字段的元信息,包含字段名称,字段类型,字段属性,索引数据构建的类型等信息。
Lucene源码系列(二十八):si索引文件格式
lucene索引的最小单位是段,每当生成一个新的段时(flush,commit,merge,addIndexes等),会生成一个段信息的描述文件,后缀是si。
Lucene源码系列(二十七):BKD树构建
本文介绍完全二叉BKD树的构建,先从一个简单的面试题入手,整体上了解构建流程,想知道BKD树逻辑上如何构建看到这里即可。如果还要深入了解,也有源码解析。最后有索引文件的总结。
Lucene源码系列(二十六):DocValues-SortedSetDocValues
SortedSetDocValues和BinaryDocValues的关系就像SortedNumericDocValues和NumericDocValues的关系一样。
Lucene源码系列(二十五):DocValues-SortedDocValues
SortedDocValues存储的也是二进制,并且都是每个文档同名的最多一个,但是SortedDocValues在存储的时候会全局排序,所以存储的结构会复杂很多。
下一页
个人成就
文章被点赞
159
文章被阅读
54,377
掘力值
1,321
关注了
8
关注者
139
收藏集
3
关注标签
4
加入于
2019-07-23