在前两章中，我介绍了隐私的基础知识以及对于你的业务意味着什么。我们建立了一个将隐私与信任和安全联系起来的心智模型，使隐私不再是一种利他主义的抽象概念，而是成为一项关键的业务目标。

随后，我们确定了数据作为隐私的构建基石，因为：

数据具有识别个人的能力；
随着无处不在的互联网连接和广泛接受的身份标识（如Google、Facebook和其他设备标识），数据变得异常丰富；
通过机器学习和人工智能，数据能够塑造和影响行为；
如果数据被错误使用或外泄，可能会造成难以逆转的伤害。

由于保护用户隐私对于你的公司来说至关重要，这有助于与用户保持信任，并在监管机构、媒体和隐私活动人士中保持可信度，因此，你的与隐私相关的工作必须集中在数据上。为了防止数据被错误使用并损害隐私，工程师们需要制定一种全面的策略来更好地理解数据，而这个策略的第一部分就是数据分类。

在我们介绍数据分类及其详细信息之前，了解数据分类如何帮助改善数据来源（用户和客户）与数据接收者（利用数据进行创新的公司）之间的整体关系是很有用的。

数据分类和客户上下文

谈论隐私时，不考虑技术抨击（techlash）的背景是不可能进行有意义的讨论的。在过去的15年中，技术行业从经济的明珠逐渐演变成那个无所贡献但却抢先享用食物的自以为是的亲戚。

正如我在2015年在LinkedIn上写道的那样，与传统行业（如农业、基础设施和医疗保健）不同，技术在产出和劳动之间的关系在本质上是不同的。在那些行业中，你需要大量的工人来将计划稳定地转化为产品。但在技术工作中，使用自动化来实现更少的劳动和迭代次数是技术的主要吸引力之一。

例如，当Facebook以190亿美元收购WhatsApp时，WhatsApp只有55名员工。这次收购对WhatsApp的员工来说是一件好事，但对那55个人以外的任何人来说都没有创造任何利润或收入。同样，当Yahoo收购Tumblr时，大约40名员工赚了数百万美元，约178名员工赚了约30万美元。全球范围内有类似的例子。

就技术行业作为就业引擎而言，声誉并不总是现实。如宣传所说，技术创造了巨大的财富；然而，这种财富在社会的一小部分人中分配。在赚取数百万美元的人群和其他人之间存在着明显的差距。简而言之，技术行业可以创造财富而不需要大量劳动，因此普通人可能感觉被排除在技术繁荣的经济利益之外。正如我们在最近的WeWork惨败中所看到的那样，创始人们以丰厚的套餐退出了公司，而普通员工几乎一无所获。

技术行业利用数据优化日常生活的能力是这种财富的源泉。技术巨头们将自己定位为现状颠覆者，但这种颠覆往往也会导致社会和文化的失衡。过去五年中，我们目睹了服务经济与其他经济部分之间的背景和文化差距，其中一部分源自这种现象。一些行业中的参与者收集了比他们实际需要的数据，处理方式比他们应该采用的更加随意，过度共享数据，这更加加剧了伤害。

当用户抱怨“公司收集过多数据”时，这种更大的不对称性正在起作用；他们觉得公司收集了他们的数据，而数据收集的好处在很大程度上归公司所有。公司可以辩称，这种数据收集有助于为用户构建更好的产品。问题在于，尽管这些功能可能成为公司获取更多数据的来源，但对用户来说，它们提供的好处可能微乎其微。《白宫风云》电视剧中的角色Leo McGarry代表了许多人的心声，他对现代科技行业表示失望，并问承诺的月球殖民地在哪里。

数据分类是一个关键步骤，旨在在这个行业与最终被这些数据所识别的用户之间增加纪律。这个过程及其结果将帮助公司从收集用户数据的角度评估他们的数据收集。数据分类可以帮助公司避免可能的隐私问题，向外部利益相关者证明公司并不把用户视为商品，并使公司能够根据数据分类对数据进行更谨慎的处理（或更快地删除数据）。虽然分类可能无法解决更大的经济财富不平等问题，但这个过程将为以数据驱动的公司提供一种更人性化的视角，用以审视数据和由数据代表的用户。

在本章的后续部分，我将更详细地讨论数据分类的“为什么”和“如何”，但高级工程师需要将这项工作视为对待用户尊重和建立信任的整体投资的一部分。

为什么需要数据分类？

在核心层面上，数据分类将回答以下问题，针对每一种已经或可能被收集或存储的数据：

这种数据在容量和定义上是什么样的？
我们为什么需要收集它？
它对我们的客户和业务有什么信息？
如果这些数据被处理不当会发生什么情况？

当我向高级领导层解释数据分类对公司的商业价值时，我告诉他们数据分类和清单提供了关键的好处，包括：

了解分布式和民主化的工程社区如何使用数据
保持组织数据使用与数据保护法规要求的持续对齐
能够定制数据保护技术和工具，并为工程路线图提供信息

让我们为这个高层摘要增加一些背景信息。

《数据隐私》第三章：数据分类（Data classification）

数据分类和客户上下文

为什么需要数据分类？