《数据密集型应用》

《数据密集型应用》

《数据密集型应用》

《数据密集型应用》各章

等 6 人订阅共11篇文章创建于2024-03-06

数据系统的未来

本文为《设计数据密集型应用》最后一章笔记，本章中，作者放眼未来，提出了一些想法和方法。 1 数据集成本书一直强调，对于任何给定的问题都会有好几种解决方案，所有这些解决方案都有不同的优缺点与利弊权衡。

2年前
238
1
评论

衍生数据系统 - 流处理

流处理流处理：数据一条一条地进入系统，以更频繁的运行处理，例如在每秒的末尾，或者当事件发生时立即处理。

2年前
435
1
评论

批处理与 MapReduce

衍生数据存储和处理数据的系统分为两大类：记录系统和衍生系统：记录系统（System of record）：也称真相源（source of truth），持有数据的权威版本。

2年前
256
1
评论

分布式系统一致性与共识机制

上一文提过，分布式系统可能出现各种各样的问题：分布式系统的麻烦 - 掘金 (juejin.cn) 处理故障最简单的方法是让整个服务失效并向用户显示错误消息。更高级的方式是找到容错的方法，让某些内部组件

2年前
534
3
评论

分布式系统的麻烦

分布式系统与单台计算机有着根本的区别，有很多新的方法可以使事情出错。例如单个计算机中，电脑崩溃会导致功能全部失效，但是在分布式系统中，系统可能会部分失效，难点在于部分失效是有不确定性的

2年前
1.3k
2
评论

一文搞懂数据库所有事务隔离级别

事务是将多个读写操作组合成一个逻辑单元的一种方式，整个事务要么成功（提交）要么失败（回滚）。事务是为了简化应用编程模型而创建的，通过事务，应用程序可以自由的忽略某些潜在错误情况和

2年前
737
1
评论

数据存储：分区、索引与负载均衡

分区数据库在20世纪80年代提出。分区是将大型数据库分解成小型数据库的方式。分区主要为了可扩展性，不同分区可以放在不共享集群中的不同节点上。因此，大数据集可以分布在多个磁盘上，并且查询可以负载在多个处

2年前
502
2
评论

分布式数据库：单主复制、多主复制和无主复制

为什么需要副本：使得数据与用户在地理上接近（从而减少延迟）即使系统的一部分出现故障，系统也能继续工作（从而提高可用性）扩展可以接受读请求的机器数量（从而提高读取吞吐量）复制的困难之处在于处理复

2年前
679
2
评论

数据存储 - 编码与演化

应用程序更改时可能会改变数据库，此时使用滚动升级（阶段升级）时新旧数据格式会在系统中同时共处，系统想要顺利运行就需要保证双向兼容性向前兼容：旧代码可以读取新数据向后兼容：新代码可以读取旧数据向前

2年前
338
1
评论

数据存储与检索

1 关系模型与非关系模型关系型数据库：源于商业数据处理，以前用于商业数据的事务处理和批处理，现在广泛用于各种软件关系模型：集合，即任意元素组合的若干有序偶对关系代数：对关系作运算的抽象查询语言

2年前
186
1
评论

什么是分布式系统的可靠性，可扩展性和可维护性

可靠性（Reliability）什么是可靠性可靠性：即使出现问题也能继续正常工作。具体来说：应用程序表现出用户所期望的功能。允许用户犯错，允许用户以出乎意料的方式使用软件。

2年前
141
1
评论