分布式点滴

分布式点滴

分布式点滴

分布式系统、存储相关；论文导读、开源项目、公开课

等 26 人订阅共81篇文章创建于2021-06-16

找数据库实习一定要刷公开课吗？

有同学在[分布式系统&数据库论坛](https://distsys.cn/)问如何找到一个数据库实习。我感觉很多想做基础软件方向的在校同学可能都会有类似问题，所以开个小文简单聊聊。

3年前
1.5k
1
评论

找数据库实习一定要刷公开课吗？

DDIA 读书分享第五章：Replication，多主模型

单主模型一个最大问题：所有写入都要经过它，如果由于任何原因，客户端无法连接到主副本，就无法向数据库写入。于是自然产生一种想法：多主行不行？

3年前
1.6k
点赞
评论

DDIA 读书分享第五章：Replication，多主模型

DDIA 读书分享第五章：Replication，复制滞后问题

DDIA 读书分享会，会逐章进行分享，结合我在工业界分布式存储和数据库的一些经验，补充一些细节。每两周左右分享一次，欢迎加入。

3年前
1.4k
点赞
评论

DDIA 读书分享第五章：Replication，复制滞后问题

好好写代码之素养篇——抽象和讲究

知乎上有个问题，如何辨别一个程序员水平的高低？就这几年 Review 代码的体感，忍不住就工程素养这个话题吐两句槽，正好作为“好好写代码”系列的第二篇。

3年前
1.4k
点赞
评论

DynamoDB 的云原生之路 —— 流控策略的演进

云上一个重要特征就是资源池化、按需分配和精准计费，从而在整体上实现资源的充分利用，通过规模化优势抵消通用性带来的成本。

3年前
1.5k
点赞
评论

DynamoDB 的云原生之路 —— 流控策略的演进

RocksDB 优化小解（一）：Indexing SST

本篇是 RocksDB 优化系列第一篇，为了优化深层查询性能，将不同层级的 SST 通过一定方式索引起来。

3年前
4.0k
3
评论

RocksDB 优化小解（一）：Indexing SST

一文理解 Spark 的基石 RDD

RDD 承自 MapReduce 而来，常驻内存以优化 IO 开销、利用流水线调度以降低批处理延迟，使得在多机上交互式的执行处理称为可能。

4年前
1.4k
2
评论

一文理解 Spark 的基石 RDD

DDIA 读书逐章分享——第三章（上）：LSM-Tree 和 B-Tree

第二章讲了上层抽象：数据模型和查询语言。本章下沉一些，聚焦数据库底层如何处理查询和存储。这其中，有个逻辑链条：使用场景→ 查询类型 → 存储格式。

4年前
1.0k
点赞
评论

DDIA 读书逐章分享——第三章（上）：LSM-Tree 和 B-Tree

步步为营剖析事务中最难的——隔离性

很久没有发文了，搞了一个月事务相关的资料和分享，今天用这篇文章做个小节。本文试着从锁的角度来梳理下几种常见的隔离级别，用相对不精确的叙述给大家建立一个直观感性的认识。

4年前
669
1
评论

步步为营剖析事务中最难的——隔离性

《DDIA 逐章精读》小册

引子每次 DDIA 读书会之后，会把文字稿发在知乎、博客或者微信上。但是文字稿实在是又臭又长，这些平台似乎都不太是一个好的载体。

4年前
751
点赞
评论

系统日报-20220515（解析 Google 最新推出的兼容 PostgreSQL 的云原生数据库 AlloyDB）

在Google I/O 大会上，Google Cloud 发布了兼容 PostgreSQL 标准的云原生数据库 AlloyDB，号称速度是 Amazon 的同类产品的两倍。

4年前
494
1
评论

系统日报-20220515（解析 Google 最新推出的兼容 PostgreSQL 的云原生数据库 AlloyDB）

系统日报-20220507（Meta 链式复制的对象存储——Delta）

偶然看到群里同学分享的 Meta 技术博客[2]新公开的高可用、强一致、链式复制的对象存储。由于我也做过一段时间的对象存储，也分享过 Facebook 家的小文件存储：Haystack 和 F4

4年前
470
1
评论

系统日报-20220507（Meta 链式复制的对象存储——Delta）

数据库存储层都涉及到哪些工作？

做数据库有一段时间了。最近有一些在校的同学问到，在实际中，分布式数据库中存储层工作内容是什么样的？简单回答了下，想到其他人可能也有类似问题，于是来这里总结下、抛个砖头。经验所限，难免有误，欢迎交流。

4年前
909
2
评论

数据库存储层都涉及到哪些工作？

系统日报-20220502（RethinkDB 为什么失败？）

今天早上起床时，无意看到一篇 RethinkDB 创始人 Slava 在 2017 年宣告 RethinkDB 商业化失败的博文。

4年前
238
1
评论

系统日报-20220502（RethinkDB 为什么失败？）

DDIA 读书分享第二章：数据模型和查询语言

概要本节围绕两个主要概念来展开。如何分析一个数据模型：基本考察点：数据基本元素，和元素之间的对应关系（一对多，多对多）利用几种常用模型来比较：（最为流行的）关系模型，（树状的）文档模型、图模型

4年前
740
2
评论

DDIA 读书分享第二章：数据模型和查询语言

DDIA 读书分享第一章：可靠性、可伸缩性、可维护性

本书为什么以数据系统为主题数据系统（data system）是一种模糊的统称。在信息社会中，一切皆可信息化，或者，某种程度上来说——数字化。这些数据的采集、存储和使用，是构成信息社会的基础。

4年前
985
4
评论

DDIA 读书分享第一章：可靠性、可伸缩性、可维护性

再次推荐下这本书 —— DDIA

今年（2022）建了一个分布式系统和数据库爱好者的微信群，如果不组织大家做点什么，微信群迟早沦为僵尸群，“好”一点的可能变成吹水群，但这显然不是我的初衷。念念不忘，必有回响，心里又掠过了这本书，更兼在

4年前
625
2
2

再次推荐下这本书 —— DDIA

系统日报-20220421（Databricks 缘何成功？）

Spark 作为一个成功的开源项目，在很多公司都早有落地；但是其背后的商业公司 Databricks，在近些年才被越来越多的提起。尤其是其友商“Snowflake” 以天价估值上市后，Databric

4年前
237
点赞
评论

系统日报-20220421（Databricks 缘何成功？）

分布式计算框架 Ray 论文导读

继 Spark 之后，UC Berkeley AMP 实验室又推出一重磅高性能AI计算引擎——Ray，号称支持每秒数百万次任务调度。

4年前
3.3k
3
评论

分布式计算框架 Ray 论文导读

MapReduce —— 历久而弥新

MapReduce 是谷歌 2004 年（Google 内部是从03年写出第一个版本）发表的论文里提出的一个概念。虽然已经过去15 年了，但现在回顾这个大数据时代始祖级别概念的背景、原理和实现。

4年前
795
5
评论

MapReduce —— 历久而弥新