分布式数据库

分布式数据库

分布式数据库

刷刷面试三分钟搞定分布式数据库面试问题

暂无订阅共32篇文章创建于2022-03-06

Elasticsearch对于大数据量（上亿量级）的聚合如何实现？

Elasticsearch 提供的首个近似聚合是cardinality 度量。它提供一个字段的基数，即该字段的distinct或者unique值的数目。它是基于HLL算法的。

4年前
1.1k
2
评论

在并发情况下，Elasticsearch如果保证读写一致？

可以通过版本号使用乐观并发控制，以确保新版本不会被旧版本覆盖，由应用层来处理具体的冲突；另外对于写操作，一致性级别支持quorum/one/all，默认为quorum，即只有当大多数分片

4年前
364
点赞
评论

说说Elasticsearch搜索的过程

搜索被执行成一个两阶段过程，我们称之为 Query Then Fetch；在初始查询阶段时，查询会广播到索引中每一个分片拷贝（主分片或者副本分片）。每个分片在本地执行搜索并构建一个匹配

4年前
643
点赞
评论

说说Elasticsearch索引文档的过程

协调节点默认使用文档ID参与计算（也支持通过routing），以便为路由提供合适的分片。shard = hash(document_id) % (num_of_primary_shards

4年前
156
点赞
评论

在使用Elasticsearch时GC 方面要注意什么？

倒排词典的索引需要常驻内存，无法GC，需要监控data node上segment memory增长趋势。各类缓存，field cache, filter cache, indexing

4年前
312
点赞
评论

Elasticsearch是如何实现Master选举的？

Elasticsearch的选主是ZenDiscovery模块负责的，主要包含Ping（节点之间通过这个RPC来发现彼此）和Unicast（单播模块包含一个主机列表以控制哪些节点需要pin

4年前
1.9k
2
评论

说说Elasticsearch Segment合并

通过每隔一秒的自动刷新机制会创建一个新的segment，用不了多久就会有很多的segment。segment会消耗系统的文件句柄，内存，CPU时钟。最重要的是，每一次请求都会依次检查所有的

4年前
471
点赞
评论

Elasticsearch使用你会注意那些优化？

GC 方面优化gc，减少gc时间。某个节点gc时间过长，master ping3次（zen discovery默认ping失败重试3次）不通后就会把该节点剔除出集群，从而导致索引进行

4年前
189
点赞
评论

Elasticsearch 数据清洗注意点

错开峰值进行清洗，比如晚上搞如果没有其他的写入，可以先修改refresh interval 成-1 用type=scan做扫描，然后bulk去update 全搞定以后，手工_refres

4年前
386
点赞
评论

Elasticsearch 中 Query与Filter区别

Filter 过滤器过滤器（filter）通常用于过滤文档的范围，比如某个字段是否属于某个类型，或者是属于哪个时间区间创建日期是否在2014-2015年间？ status字段是否为su

4年前
885
点赞
评论

说说HBase Region核心切分流程？

HBase将整个切分过程包装成了一个事务，意图能够保证切分事务的原子性。整个分裂事务过程分为三个阶段：prepare – execute – (rollback) 整个region切分

4年前
719
点赞
评论

说说HBase读、写流程

HBase读流程首先，客户端需要获知其想要读取的信息的Region的位置，这个时候，Client访问hbase上数据时并不需要Hmaster参与

4年前
382
点赞
评论

HBase RowKey 的设计原则？

RowKey设计原则唯一原则必须在设计上保证其唯一性。由于在HBase中数据存储是Key-Value形式，若HBase中同一表插入相同Rowkey，则原先的数据会被覆盖掉(如果表的ve

4年前
775
点赞
评论

说说Hbase的两层缓存

memstore memstore供写使用，写请求会先写入memstore，regionserver会给每个region提供一个memstore，当memstore满64MB以后

4年前
162
点赞
评论

说说HBASE中compact用途是什么，什么时候触发?

在hbase中每当有memstore数据flush到磁盘之后，就形成一个storefile，当storeFile的数量达到一定程度后，就需要将 storefile 文件来进行

4年前
265
点赞
评论

说说Hbase中scan和get的功能以及实现的异同

HBase只提供两种查询方式 Get方式按指定RowKey 获取唯一一条记录，get方法（org.apache.hadoop.hbase.client.Get） Get 的方法处理分两种

4年前
288
点赞
评论

说说HBase中Scan对象的setCache和setBatch 方法的使用

setCaching 设置的值为每次rpc的请求记录数，默认是1；cache大可以优化性能，但是太大了会花费很长的时间进行一次传输。 setBatch 设置每次取的column size；

4年前
173
点赞
评论

HBase 的特点是什么

HBase 基本特点 HBase是一个分布式的、面向列的开源数据库存储系统，具有高可靠性、高性能和可伸缩性，它可以处理分布在数千台通用服务器上的PB级的海量数据。 HBase不同于一般的关

4年前
960
点赞
评论

HBase如何实现模糊查询？

看下图hbase在对key值进行过滤尤其是rowkey（行键）进行过滤的时候，性能是最优的。 RowKey设计原则唯一原则必须在设计上保证其唯一性。

4年前
1.5k
点赞
评论

如何解决Redis缓存单机热点问题？

发现热点 Key 1、凭借业务经验预估哪些是热key，其实这个方法还是挺有可行性的。比如某商品在做秒杀，那这个商品的key就可以判断出是热key。缺点很明显，并非所有业务都能预估出哪些

4年前
294
点赞
评论