每个程序员都应该知道的数字Jeff Dean 在他关于分布式系统的 ppt 中列出了“每个程序员都应该了解的数字(Num

Jeff Dean 在他关于分布式系统的 ppt 中列出了“每个程序员都应该了解的数字(Numbers Everyone Should Know)”，对计算机各类操作的耗时做了大致估计。这些数字在很多地方都很有用。

这些数字最早应该出现在 Peter Norvig 著名的博客《Teach Yourself Programming in Ten Years》，不过略有一些不同：

这些数字大多是 2009 年给出的，虽然摩尔定律已经失效，但计算机发展到今天，这些数字确实有些过时。

但是，jeff dean 和 Peter Norvig给出这些数字的重点在于它们之间的数量级和比例，而不是具体的数字。

对于今天的数字，伯克利大学有个动态网页，可以查看每年各个操作耗时的变化，根据网页的数据，总结每 10 年来的变化如下图：

可以观察到：

注： 1 ns = 10^-9 seconds 1 ms = 10^-3 seconds = 1,000 us = 1,000,000 ns

对于 ns 为单位的时间我们可能没有什么概念，所以我们可以将数字乘以 10 亿，来观察数量级的差距。

这样一来就非常明显了，L1 缓存查询相当于一次心跳，这样的话对于内存、网络、SSD 和机械硬盘之间的访问速度有了一个直观的对比：

了解这些数字有助于设计和比较不同的解决方案。可以看出，从远程服务器的内存中读数据要比直接从硬盘上读取要快的。

推广到一般的应用，这也意味着使用磁盘存储往往比使用数据库服务要慢（数据库通常已经把需要的数据放到了内存）。BTW，这些数字也被 CMU 的数据库课程引用。

对于读取 1MB 数据，内存、SSD 和磁盘基本差了一个数量级：

尤其在设计存储引擎时，很多开源软件（Kafka、Leveldb、Rocksdb）都充分利用了存储介质顺序读、写速度远远快过随机读、写的特性，只做追加写操作来达到最佳性能。

StackOverflow 有一个延伸问题，延迟(Latency)、带宽(Bandwidth)和吞吐(Throughput)之间有什么区别？

最佳回答用水管来举例。