第一章:隐私工程:为什么需要它,如何扩展它
在过去几年里,隐私似乎一直是新闻的焦点。有关保护消费者免受伤害的新法律的讨论不断,公司的数据泄露和罚款的报道也时有耳闻。
不论在业务的哪个层级,人们都感到不安,这是可以理解的。许多公司的创始人是工程师或技术专家;他们很难评估与依赖数据收集的产品相关的风险。公司中的其他中层工程师编写代码并构建其他自动化,他们做出许多较小的决策,当这些决策按规模扩大时,可能会给股东和投资者带来风险。因此,这些技术领导者有理由担心,“我正在做出哪些决策可能在不久的将来对隐私产生影响,尤其是当我的策略即将取得成果时?”
任何直接或间接影响用户隐私的岗位的人都会受益于对隐私作为一个概念和威胁向下游讨论。这些人需要具备明确的实操技能,以实施隐私控制。这些技能将帮助他们将隐私工程和工具嵌入到公司的技术产品中,并创建能够打破通常定义科技公司的壁垒的隐私控制。
往往,企业陷入一种误区,将创新与隐私对立起来,在依赖用户数据构建数字产品的基础上,只在几个周期后才开始关注隐私。到那时,通常已经发生了隐私和声誉损害。隐私损害是一个通用术语,它涵盖了数据泄露、外泄或未经授权访问等行为,从而侵害了用户的隐私。隐私保护的丧失意味着用户受到了伤害;因此使用这个常见术语。然后,这些业务领导者必须找到资源和带宽来组建隐私项目,优先实施隐私措施,并调整业务的节奏以适应隐私审查。
本书将帮助您避免这种错误选择,使从技术部门领导者到实际技术人员的读者能够从知识和愿景的角度思考和谈论隐私,理解全局以及细节。在掌握本书的工具、技术和经验之后,领导者将能够适应以隐私为核心的世界。此外,他们还将在业务运营中找到协同效应,使其隐私姿态成为竞争优势。
在本章中,我们将从基础知识开始:实际上“隐私”是什么意思,公司内部数据流动的隐私影响以及为什么隐私很重要。本章的后半部分将简要介绍隐私工具,并讨论本书不涉及的内容,同时考虑工程师角色在最近几年中的演变——这种演变带来了对隐私的影响。让我们从简单的开始,什么是隐私?
什么是隐私?
为了理解隐私,首先需要参考安全性。大多数公司和领导层都有某种安全机制,并且至少对这个概念有一定的表面理解。
对于本书的读者来说,其中很多人可能需要兼顾隐私和安全专家的角色,这是一个重要的观点。如果你遇到安全问题,可能包括以下情况之一:
- 员工或类似的内部人员在不应该的情况下访问敏感的商业或客户数据。
- 商业伙伴在影响客户隐私或商业竞争优势的时间或规模上获取商业或客户数据。
- 为了识别欺诈而收集的数据超出了最初目的的使用。例如,为了验证用户是真实的而不是机器人而收集的数据后来被用于营销,因为访问控制系统遭到破坏。
这些例子中的每一个都始于安全妥协,导致用户的隐私受到损害,除了对企业及其竞争优势造成的任何其他损害。每当你遇到安全问题时,很有可能也会存在隐私伤害。这对于领导者来说至关重要,以免采取孤立的方法,将这些概念视为相互独立和不相关的。在接下来的章节中,你将学习的隐私技术旨在改善隐私和安全性,从而帮助公司保护其竞争性知识产权以及用户数据。
IT安全涉及实施一系列旨在防止未经授权访问组织资产的网络安全策略。这些资产包括计算机、网络和数据。通过验证希望访问数据的用户的身份并阻止那些没有访问权限的人,可以维护敏感信息的完整性和机密性。你可以从像思科系统(Cisco Systems)这样的安全源中阅读更多相关信息。思科将IT安全定义为“一系列旨在防止未经授权访问组织资产(如计算机、网络和数据)的网络安全策略。它维护敏感信息的完整性和机密性,阻止高级黑客的访问。”
请注意,这个定义涵盖了对计算机(或更广义地说,数据可能存在的任何地方)、网络(数据在计算机之间传输时的过程)以及数据本身的访问。这里的目标是避免数据被外部恶意行为者泄露、修改或窃取,这些行为者通常被称为黑客。这个定义还引入了敏感信息的概念,这在涉及属于个人和公司的数据时有不同的含义。
作为隐私领域的领导者,我一直通过调整和重新运用安全工具来构建隐私计划。这意味着我将外部的恶意行为者(如黑客)与可能有意或无意地不当使用数据的内部人员置于同一思维层面上。因此,目标是通过管理数据的收集、访问、存储和使用来保护数据。在这个意义上,你可以通过调整旨在数据安全的结构并使其具备隐私功能来开始,而不是重新创建用于隐私的工具和流程。
举个例子,如果你发现外部人员未经授权访问了某个账户,你可能会暂时关闭该账户以调查账户持有者是否构成风险,或者该账户是否遭到入侵。你还可以暂停与相同电子邮件地址、IP地址等相关联的其他账户。对于内部用户,如果你发现这并不是恶意行为而是访问权限的错误使用,你可能只需要暂停对该账户和该数据库的访问权限。你所做的就是使用旨在增强隐私并跟踪数据访问对隐私的影响的安全工具。这创造了一种连续性的感觉,并允许有效利用现有的工具和关系,而不是创建可能具有破坏性的不必要的工具和流程。
让我们考虑我喜欢的隐私定义中的第一个。根据《隐私工程师宣言》的定义,“数据隐私可以被定义为个人信息的经过授权、公正和合法的处理。”隐私与安全密切相关。没有安全,就没有隐私,因为任何违反安全保护的访问都将被定义为未经授权、不公正和非法。隐私比安全更进一步的地方在于,安全主要保护免受外部恶意行为者的攻击,而隐私需要过程和系统来防止内部对数据的滥用。从这个意义上说,隐私是在最佳安全性建立之后开始的。正如我最近面试的候选人告诉我,安全是隐私的必要条件,但不足以满足隐私的要求。
实施这样的计划需要一定程度的创造力,因为你的策略将影响团队的持续运作方式。隐私控制不会试图阻碍外部威胁,而是试图影响团队与用户的连接方式和数据使用方式。这包括例如你能够收集哪些数据,如何给不同类型的数据附加风险,以及在数据以PB级别在系统中流动时如何大规模应对这些问题。
接下来是我喜欢的第二个隐私定义,因为它让用户在他们的数据在他们不在场时被使用时也能感到有所主动性。根据国际隐私专业人员协会(IAPP)的定义,“信息隐私是拥有对个人信息的收集和使用方式有一定控制权的权利。”在后续章节中,我们将详细讨论这一点,但随着隐私成为公众关注的焦点,它赋予了用户对企业的问责权力。
然而,很多人认为需要更多的问责制度。公众舆论很可能提高对隐私保护的要求以及未能满足这些要求的后果。本书将提供在构建隐私计划方面的经验教训,以帮助你以可扩展的方式迎接这一时刻,从而长期促进你的业务。
对于本书的实际操作目标读者,这是我们将继续使用的隐私定义,将我们讨论过的概念融合在一起:“数据隐私是指保护用户数据免受以与用户期望不同的方式进行处理和访问所需的工具和流程。”这个定义非常重要,也是我个人非常喜欢的,因为它将隐私责任放在我认为应该负责收集用户数据并从中受益的公司身上。
虽然本书将重点介绍前面定义中提到的隐私工具和流程,但以下是我们在学习过程中将遇到的一小部分主题:
- 数据分类 - 定义与不同类型数据相关的隐私风险。
- 数据清单 - 在存储系统中为数据打标签,以反映它们的分类。
- 数据删除 - 在预定使用完成后删除数据。
- 数据混淆 - 使用各种匿名化技术降低数据能够识别用户的可能性。正如你将在第5章中看到的,隐私工程师能够提供的关键价值是通过混淆数据来保护隐私,同时保留数据在合法用途(例如使用去标识化的医疗记录进行聚合研究)中的实用性。
现在你对隐私有了基本的了解,我们将关注工程师和技术领导在数据和现代工程中面临的挑战。本章的下一部分将讨论技术系统和流程如何针对创新进行优化,从而导致数据的泛滥。毕竟,除非我们首先了解数据是如何在公司中被摄入和流动的,否则我们无法有效地计划以隐私为中心的数据管理。
数据如何流入和在你的公司内部流动
理解数据在组织中的流动方式至关重要,因为许多公司的工程师受到激励,专注于他们的工具和产品,并且可以使用自定义的技术堆栈、代码仓库和DevOps流程。因此,他们通常不了解数据的完整流动方式以及它如何在公司的存储系统中传播。
图1.1展示了数据通过"生产者"进入公司的方式,也就是说,API和其他服务在公司中摄入数据。从公司的其他部门和下游服务的角度来看,数据可能来自客户、第三方、数据提供商、政府等。通常,这是通过作为初始收集单一点的API网关进行的。然而,在API网关后面,有一系列的微服务——我们将在后续章节中详细讨论这个概念——它们处理和推断数据,因此我将这个数据收集层称为"生产者"。
从初始的"生产者"层,数据流向几个层次:
- 操作性数据库,如Cassandra,可以通过其他应用程序快速存储和访问数据。
- 实时存储,如Kafka、Pinot和其他分布式事件流平台,用于高性能数据管道、流式分析、数据集成和其他关键任务的应用。
- 分析存储,如Hadoop、Vertica等,数据分析师和数据科学家可以从中运行查询以进行业务智能分析。
- 云存储,如亚马逊网络服务(AWS)、谷歌云平台(GCP)等,可以用于存储和归档数据。
然而,正如图表所示,数据还会进入其他可能难以管理和审计的系统,例如员工的笔记本电脑、Google Docs和Microsoft Word等生产力软件、电子邮件和聊天频道。简而言之,在现代商业中,关键是要意识到加速创新的直觉和最佳实践——分散开发、分布式和冗余数据存储——使得在大规模构建我在上一节提到的隐私工具(如数据删除、访问控制、风险缓解等)变得更加困难。
数据的传播也不可避免地扩大了组织内部的数据量。图1.2显示,大量的数据摄入和分发导致了大量的数据存储、表格和文件,甚至可能达到了数百亿字节的数据量。
当技术领导者尝试构建隐私工具和技术流程时,他们还需要确保这些工具适用于之前所描述的大量数据。为了做到这一点,他们需要一个数据目录或清单,以便能够有针对性地部署他们的工具(第4章将涵盖该主题)。技术领导者在构建隐私工具、争取对这些工具的认可并预算以扩大努力时,需要考虑到这一点。仅仅将隐私投射为一种利他主义的美好愿望,是错失了为您的业务带来实际好处的机会。简单地说,如果您将隐私工程纳入设计中而不是试图事后加装,鉴于数据在您的系统中的传播,隐私工程的成本要便宜得多。
在下一节中,我们将更深入地探讨隐私对您的业务的重要性。我们将研究的论点和示例将有助于将工程师的工作与隐私的法律角度联系起来,并进一步与整体业务增长相结合。这将帮助您在自己的背景下为更好的隐私提出论据。
为什么隐私很重要
我预计本书的读者群将涵盖从实干者到梦想家的各个角色。实干者包括技术项目经理、工程师、数据架构师、云和DevOps专家,以及那些担负多重职责但拥有一个共同目标的领导者:保持业务运营的连续性和可预测性。梦想家包括以技术为导向的初创公司创始人、技术颠覆者和将推动明日创意的风险投资家。
梦想家追求交付和迅速,而实干者追求执行和一致性。如果隐私问题阻碍了公司的发展,所有这些目标都可能受挫。然而,正如前面所述,太多的领导者在其他领域的成就推动下,认为自己对隐私风险具有无懈可击和无所不能的能力。他们还认为,由于政治家不愿阻碍创造巨额财富并为美国和其他国家提供就业机会的企业家,政府的执法力量已经退化。然而,这种自信可能是没有根据的。
罚款是真实存在的
诸如欧盟的《通用数据保护条例》(GDPR)之类的立法通过,使监管机构能够对隐私不足的公司进行罚款。
图1.3展示了隐私问题如何影响企业。政府机构对公司实施的罚款是真实且具有重要意义的。那些拥有盈利模式的大型企业可能能够承担这些罚款的经济负担,但对于较小的公司来说,这些罚款可能是灾难性的。初创公司可能会发现,本应用于资金新项目和关键人员招聘的资源被用于支付罚款。风险投资家可能会发现他们的投资和声誉与一个不成功的项目相关联,这个项目将在财务压力下难以起步。
没有任何企业能够摆脱隐私泄露的风险,也没有企业可以逃避监管机构的关注。罚款可能会对任何企业产生影响,这就是为什么这些罚款很重要需要考虑的原因。在某些情况下,罚款会被调低,比如英国航空的罚款减少到了2,000万美元,但依赖运气或宽容是不明智的,特别是对于那些缺乏深厚影响力或根基的公司来说。
我的一个行业导师最近告诉我,Equifax在其著名的2017年数据泄露事件之后应该受到更严厉的罚款。这家信用机构有权在未经我的同意的情况下收集我的个人金融详细信息,并对我的信用价值做出决策。然而,Equifax通过极其粗心和不适当的处理过程泄露了大量的数据,即使是初级的隐私或安全工程师也可以将其识别为风险。令人愤慨的是,像你我这样的消费者每年还需要支付约120美元来保护信用报告的安全,更不用提企业要承担的这些成本了。
为什么工程师要担心罚款呢?他们的工作不是构建东西和快速失败吗?法律和合规的人员负责管理业务风险,不是吗?除了显而易见的回答——没有任何公司拥有无穷无尽的资源来支付罚款之外,工程师了解他们的工作现在不仅涉及构建功能、推动用户参与和数据变现,还需要了解他们的行为是否合规,以及当下决策的下游影响。
接下来的小节将讨论一个例子,在这个例子中,早期创新过程中出于对客户的善意决策造成了隐私方面的问题。
早期阶段的效率优势可能会在后期引发隐私问题
在创新的早期阶段,甚至在公司试图推动产品采纳时,工程师会做出一系列决策,以吸引风险投资者(VC)、企业对企业(B2B)和企业对消费者(B2C)客户。这是有道理的,因为资金和早期采用是实现工程领导者所追求的变革性改变的必要条件,尽管不充分。让我们看一个情景,其中缺乏长期战略给一家公司带来了严重的问题。
游戏终结者:一个案例研究
有一家公司,我们称之为Gamesbuster,为智能电视开发了视频游戏应用。目标是在智能电视开机后立即吸引用户的注意力。为了实现这一目标,关键是确保应用在电视开机后立即启动,因为用户可能会转向其他应用。
为了保证应用在智能电视开机时以低延迟启动,Gamesbuster的工程师们构想了一种名为“Boot to Suspend”模式的自动化逻辑。这是一种在设备启动时启动的持续后台模式,定期与Gamesbuster服务器通信以接收更新并保持应用处于“可使用”状态。
为了使Boot to Suspend模式发挥作用,Gamesbuster服务器需要从设备接收信息,包括通过标准的互联网通信协议自动发送的IP地址。工程师们认为收集这些IP地址是至关重要的,因为从IP地址推断的位置信息可以为他们个性化定制应用。
这个功能是两位工程师的创意,他们希望确保在他们的目标受众加载他们所期望的功能时,所展示的游戏不会被抛弃:那些并不以耐心著称的年轻人。这些工程师并没有理解设备与Gamesbuster服务器通信时数据的性质。这是“快速失败和创造”的教科书上的一节。
随着Boot to Suspend的推广,它从严格的工程概念转变为可能的业务增长机会。销售团队看到了一个机会,可以确保携带Gamesbuster应用的合作伙伴知道这个选项并支持它。根据他们的合同谈判,预装Gamesbuster应用程序的合作伙伴被强烈鼓励实施Boot to Suspend。随着时间推移,支持Boot to Suspend的设备数量、用户数量以及流入Gamesbuster服务器的数据量迅速增长。这意味着Gamesbuster的工程创始人以及创新技术团队可以获得可观的收入增长。投资者注意到这个成功故事,并向Gamesbuster注入了更多资金。
然而,并不仅仅投资者注意到了这一点。负责保护用户隐私权的监管机构对Gamesbuster从用户那里收集位置信息表示担忧。这些数据可能是由工程师在应用程序在后台运行时(也就是Boot to Suspend的运行模式)无意中收集的;因此,这些数据是在用户登录并接受隐私政策和其他通常允许公司收集用户数据的披露之前收集的。
监管机构要求Gamesbuster停止在未经同意的情况下收集IP地址,如果确实需要收集,他们的工程师需要将这些数据存储在具有非常有限访问权限的单独数据库中,并在应用程序启动后自动删除,一旦这些数据用于预期的个性化目的。
为了确保他们能够准确检测到他们正在收集的数据,率先开发Boot to Suspend的工程师们创建了可以检测到名为“IP地址”的字段的过滤器。然而,几个月后,当监管机构对Gamesbuster系统中的数据仓库进行审计时,他们发现了数百万个保留了数月的IP地址。这明显违反了Gamesbuster对监管机构作出的承诺。
这是怎么发生的呢?有两个关键原因:
-
工程师构建的过滤器只能检测到结构化数据格式中的值,例如以键值对形式定义的每个实体。事实证明,越来越多预加载Gamesbuster应用程序的合作伙伴设备以JSON块的形式将数据传输到服务器。在这个例子中,JSON块是指存储JSON格式文本的单个字段。因此,数据库对块中的任何键或其值都没有真正的了解。这意味着Gamesbuster的过滤器无法检测到IP地址;与将它们存储在特殊的有限访问表中不同,Gamesbuster系统允许这些IP地址与其他数据混合存储,并与其他可以自由使用的数据一起存储。
-
当这些IP地址被成功拦截并记录在唯一可访问的表中时,它们会被保存30天以供使用。然而,工程师为安全团队授予了对该表的访问权限,用于关键的安全目的,例如防止和研究DDOS攻击和其他安全相关事件。然而,事实证明各种自动化脚本将这个表作为数据源进行查询,并且IP数据被复制并存储在其他超过30天的表中。换句话说,无论是严格的访问控制还是保留期限都没有像向监管机构承诺的那样得到执行。
审计调查威胁到了公司的商业模式,因为一个因为滥用位置数据而受到调查的公司将难以找到愿意托管该应用程序的合作伙伴。这将导致客户增长和参与度放缓,进而导致广告收入的放缓。因此,公司必须采取几项补救措施:
-
首先,他们不得不批量删除IP地址,这意味着在某些情况下他们不得不过于谨慎,甚至删除了合法收集的IP地址。无法确定哪些IP地址是在“Boot to Suspend”模式下收集的,而缺乏数据清单阻碍了可能更有针对性的删除工作。在以后的章节中,我将讨论如何通过前期治理计划来提供帮助。
-
其次,这一努力导致了新功能开发的中断,因为在调查结束之前,公司无法依赖现有的数据和收入流。结果,几个产品路线图受到了影响,而那些晋升取决于构建新功能的雄心勃勃的工程师们则离开了受到较少监管审查的新公司。
-
第三,公司不得不建立一种限制性的合规制度,这影响了产品部署和构建的速度。 “快速行动和创造东西”模式被“填写表格和核查事项”模式所取代。
对于工程师来说,教训是明确的:在没有隐私考量的情况下构建新的数据驱动功能存在重大风险。工程师和技术领导者在开发核心产品和功能时应该构建隐私工具和流程。在本书的后面,我们将深入探讨一个详细的面向工程的隐私审查流程,既能保护数据隐私,又能赋予工程师在创新中具有创造力和高效率。
就像罚款对公司来说可能是经济上的毁灭性打击一样,调查本身也是如此。工程师和技术领导者(创始人及其资助者)理解监管对其产品路线图的威胁是至关重要的。我们将在下一小节中考虑这一点。
隐私调查可能不仅仅是一个小小的阻碍
隐私和安全的法规相对较新,监管机构对隐私技术的了解可能还相对不够成熟,因为这涉及到一些新颖的概念。此外,全球有数百万人首次连接到互联网,公司通过结合来自不同数据库和过去十年无法获取的身份的数据来推断用户的信息。就像人工智能和机器学习等技术的潜力日益增长一样,滥用和调查的潜力也在增加。很难预测此类调查和审计对创新的质量将产生何种影响,但我想举一个范围广泛的政府调查的例子,它扼制了美国最成功公司之一的计划,改变了技术的发展轨迹。
反垄断法确保一家公司不会控制市场、削减消费者选择和提高价格。在上世纪90年代末,美国司法部指控微软公司试图通过免费提供其浏览器软件,导致竞争对手Netscape的垮台,从而构建垄断地位。该公司于1998年被司法部起诉。在这次调查之前,微软似乎势不可挡。
这次调查打乱了微软的商业模式和日常运营。在最近的一次采访中,创始人和商业偶像比尔·盖茨表示,如果不是美国司法部对微软提起的反垄断诉讼,Windows可能已经成为全球主导的移动操作系统。他在纽约时报的DealBook会议上表示:“毫无疑问,反垄断诉讼对微软来说是不利的,如果没有那起反垄断案,我们会更专注于创建手机操作系统,所以今天你会使用Windows Mobile而不是Android。”微软仍然在台式电脑上以Windows占据主导地位,并在商业生产力软件等其他领域处于主导地位,但它不再开发面向手机的Windows系统。Alphabet的谷歌目前拥有最受欢迎的移动操作系统,而苹果的iPhone排名第二。
盖茨在谈到公司错过移动操作系统时说:“噢,我们离成功太近了。因为那个干扰,我弄砸了这个事情。”他说,公司发布的一个版本晚了三个月,摩托罗拉本来会在一款手机上使用该版本。“现在这里没有人听说过Windows Mobile了。”
在我写这本书的时候,最具深远影响的隐私法律还不到五年的历史,但盖茨的评论具有明显的含义:对当今科技公司的重大诉讼可能会对市场产生负面影响。如果你认为微软是个例外,不妨考虑一下:反垄断法经过多年的理论演变逐渐直接产生了影响。在当今的政治环境下,隐私问题可能会经历类似的发展轨迹。
让我们看看一些其他更近期的罚款和制裁。在与剑桥分析公司的麻烦之前,Facebook在2017年的24小时内面临多项罚款:
-
意大利反垄断监管机构对WhatsApp处以300万欧元的罚款,原因是“引导”WhatsApp用户与Facebook分享数据(即,他们必须分享数据,否则将无法使用该应用)。
-
第二天,欧洲委员会对Facebook处以1.1亿欧元的反垄断罚款,原因是在关于自动关联Facebook和WhatsApp用户账户的能力方面提供了不准确的信息。Facebook在2014年表示不能实现这一点,但在2016年突然通过利用共同的电话号码实现了这一点。
-
同一天,法国、比利时和荷兰宣布,在Facebook 2014年全球修订用户协议时,Facebook在与数据隐私相关的事务中违反了他们各自的数据隐私法律,采取了不适当的数据收集和使用做法。法国处以15万欧元的罚款(目前的最高罚款额);比利时和荷兰可能会施加罚款。西班牙和德国宣布对此事展开调查。
了解这些调查如何模糊了反垄断和隐私之间的界限会有所帮助。
WhatsApp因误导数据处理行为被欧洲委员会罚款1.1亿欧元
在欧盟反垄断监管机构审查Facebook 190亿美元的收购交易期间,Facebook在2014年两次声称无法“建立可靠的自动匹配”Facebook和WhatsApp账户之间的关联。然而,2016年,WhatsApp宣布更新其服务条款和隐私政策,包括通过电话号码将WhatsApp与Facebook账户关联起来。欧洲委员会对此表示不满,并处以巨额罚款,但同意不重新审查并购批准。罚款金额本来可以达到全球收入的1%(根据Facebook 2016年的数据大约为2.7亿美元)。
关键观点-欧盟反垄断监管机构认为,在分析并购交易和执行竞争法时,消费者数据使用权和承诺非常重要。此外,欧盟似乎准备对美国科技公司处以巨额罚款。只有时间能证明欧盟数据保护机构是否会在GDPR的框架下利用其赋予的权力(罚款可达全球收入的4%)。
工程师和技术领导需要知道的是-我们无法确定Facebook的工程师如何在其数据库中存储电话号码,是否存在纠正控制措施以防止基于电话号码的账户关联,以及如何克服这些控制措施来进行账户关联。
然而,真实的情况是,欧洲监管机构认为这两个数据库将保持独立的承诺是牢不可破的。结果证明情况并非如此。工程师经常发现将两个关于同一用户的数据集关联起来具有价值,因为组合数据集可以更好地实现个性化和变现,或者他们可能只是能够基于电话号码等唯一值更好地保护组合数据集。
无论哪种情况,将两个数据集关联起来的工程决策随后影响了用户的隐私权,并通过Facebook在并购交易中做出的承诺的视角来看待。技术创始人和其他类似领导者必须问自己:“他们的数据处理实践对隐私有什么影响,并且是否会影响其业务的长期战略增长机会?”工程师每天都在做出多少这样的决策,而他们对隐私的了解非常有限,这些决策可能会逐渐扩大成为更大的问题?”具备可验证的数据编目能够有助于减轻其中的一些危害,您将在第4章中了解更多相关内容。
对于工程师来说,关键技术要点是,以便利为目的做出的出于善意的决策可能会违背法律承诺和陈述,因此建立健全的数据治理以及工程和法律之间更紧密的联系至关重要。
WhatsApp被意大利反垄断监管机构罚款300万欧元
至少有一个欧盟成员国(意大利)决定对Facebook/WhatsApp账户关联处以自己的反垄断罚款。该决定的理据集中在一个重要的数据保护概念上:即WhatsApp用户是否同意将其账户与Facebook账户合并。监管机构得出结论称,WhatsApp/Facebook过分强调了在应用程序升级过程中同意新的服务条款和隐私政策的必要性。
关键见解:某些欧盟反垄断机构在发现存在反竞争损害时似乎愿意应用数据保护和隐私原则。 工程师和技术领导者需要了解:在这个具体案例中,用户是否同意特定数据使用是调查人员和监管机构关注的焦点。监管机构似乎也希望用户不会被迫同意使用条款,而是能够做出知情同意。
工程师通常相信通过重构代码使其更高效和可扩展。他们对描述同一用户的不同数据集采取类似的方法。对于工程师和技术领导者来说,教训是虽然他们可能认为合并数据集可以增加对用户的理解,但注重隐私保护的监管机构希望确保用户权利不受侵犯。工程师与法律团队密切合作以确保用户已同意进行此类数据聚合是至关重要的。
五个欧盟数据保护机构对Facebook追究其2014年政策变更和其他数据活动的责任
司法的轮子转动得很慢。尽管Facebook在2014年对其隐私政策的修改大多数用户已经遗忘,但五个欧盟数据保护机构(DPA)注意到了这一点并展开了调查。2017年5月,其中三个DPA宣布了他们的调查结果,而另外一个DPA(德国汉堡)此前已经宣布了一项判决,最后一个DPA(西班牙)正在进行调查。以下是具体情况:
法国——该DPA发现了以下违规行为:(1)没有合法依据将用户信息用于在线行为广告目的,(2)通过“datr”cookie进行非法跟踪,以及(3)对第三方网站上的“赞”按钮未能提供充分的通知和同意。他们对Facebook处以15万欧元的罚款。
比利时——该DPA得出结论,Facebook通过使用cookie、社交插件和像素等方式违反并继续违反比利时的数据保护法,例如收集过多的个人数据,包括非会员的数据。该DPA正在寻求法院命令,以强制执行对Facebook做出的改变。
荷兰——在这个案件中,DPA的一些重要发现包括:(1)他们有权对Facebook进行监管(而不是爱尔兰DPA),(2)“赞”按钮的数据收集和使用做法是非法的(DPA之间的一个共同主题),因为它们没有提供足够的数据收集通知,以及(3)Facebook的隐私披露过于复杂,不够充分(我曾经在另一起2015年的调查中看到荷兰DPA提出过这个担忧)。该DPA正在评估Facebook是否已改变其做法以符合荷兰的数据保护法,如果没有,他们可能会寻求罚款。
德国——德国汉堡的DPA此前曾命令Facebook停止在未经WhatsApp用户事先同意的情况下合并数据,并删除先前共享的数据。
那么这些特定于各国的结果给我们带来了什么教训呢?
-
重要见解——尽管Facebook坚决主张只有爱尔兰DPA应具有管辖权,只有爱尔兰的数据保护法适用,但所有DPA都发现其本地法律适用(管辖范围通常涉及当地的Facebook实体)。
-
工程师和技术领导者需要知道——工程决策与隐私法律影响之间经常存在相当大的滞后期。在比利时调查案中,当局认为Facebook收集了“过多的个人数据”。工程师通常会采取一种收集数据的方法,注重未来,并尽可能长时间地保留数据,因为他们认为在以后的某个时间可能会有用。当局现在正在打击数据收集和保留,除非存在合法的业务目的。
在荷兰调查案中,对用户提供的透明度和可见性水平受到了审查。为了防止此类不利行动,工程师必须慎重行事,并与他们的法律同行以及用户体验设计师进行沟通,以便用户可以正确了解数据收集情况。
最后,在德国的例子中,工程师必须删除之前收集并与其他数据合并的数据。正如您在Gamesbuster案例中看到的,这些删除可能会成本过高且在技术上会造成干扰。工程师应该投资于删除工具,以避免低效和容易出错的删除操作,这是我们将在后续章节中详细探讨的内容。
这里的教训很明确:技术领导者在早期创新、增长和收购阶段做出的决策可能会导致隐私伤害、调查和罚款。本书旨在帮助您巩固技术隐私基础,使法规的微风不会使您的成就摇摇欲坠。此外,工程师不能再只是编写代码、收集数据和构建功能,而对其行为的法规影响只字不提。本书将帮助工程师以技术隐私控制的方式构建创新系统,以加快工作速度,而不必事后进行清理。
到目前为止,我们已经从防御的角度看到了隐私的重要性,因为由于早期的技术决策,公司可能会遇到困境。然而,公司可以在前期做出正确决策,建立可靠的隐私实践。这有助于开启商机并为未来的成功奠定基础。
隐私流程可以开启商机:一个真实的例子
2012年,我在一家小型创业公司工作,该公司致力于在数字身份领域进行创新。我们的产品包括一个全球性的开放式身份验证系统,可以让您在多个网站上进行身份验证,而无需用户名和密码,并允许在不同网络属性之间进行联合会话和后端数据收集,以便进行轻松的客户研究。
与大多数创业公司一样,我们注重想法而轻视流程。工程师们不愿意接受自上而下的命令,要求他们记录代码、审查数据收集,并确保公开披露与隐私实践的一致性。然而,随着时间的推移,为了筹集B轮融资,向那些受到严格监管且位于隐私敏感地区(如欧洲联盟)的客户销售变得至关重要。
当时,像欧盟的《通用数据保护条例》(GDPR)这样的广泛隐私法尚未出现,因此证明我们作为一个注重隐私的成熟公司变得困难。公司的高级副总裁工程师请我追求ISO 27001认证:“ISO/IEC 27001正式规定了一个信息安全管理体系(ISMS),这是一个由一系列结构化活动组成的管理安排,用于管理信息风险(在标准中称为‘信息安全风险’)。”
ISMS将向我们的潜在客户证明我们已经建立了技术流程来管理数据保护;这一点至关重要,因为我们的工具将使我们的客户能够处理他们从客户那里收集的数据。如果没有一个可靠的技术框架,没有一个大公司会相信一个小型美国创业公司处理大量客户数据的能力。作为一个年轻的工程师,我希望能够掌握新的技术技能,并使自己与其他工程师区分开来,于是我深入研究了ISO标准。
ISO/IEC 27001标准有两个明确的目的:
以相对高层次的描述,规定了ISMS的设计; 可以选择性地作为认证审核机构正式合规评估的基础,以认证组织的合规性。 以下是认证所需的强制性文件清单:
- ISMS范围(按照4.3款规定)
- 信息安全政策(5.2款)
- 信息风险评估流程(6.1.2款)
- 信息风险处理流程(6.1.3款)
- 信息安全目标(6.2款)
- 信息安全工作人员的能力证明(7.2款)
- 组织认为必要的其他与ISMS相关的文件(7.5.1b款)
- 运营计划和控制文件(8.1款)
- [信息]风险评估结果(8.2款)
- [信息]风险处理决策(8.3款)
- 信息安全监测和测量的证据(9.1款)
- ISMS内部审核计划和审核结果(9.2款)
- ISMS高层管理层对ISMS的审查的证据(9.3款)
- 确定的不符合事项和采取的纠正措施的证据(10.1款)
随着我们在构建这些必要的工具和流程上取得进展,我注意到了以下变化:
- 我们追求认证的事实本身在愿意为我们提供资金和支持的风险投资机构之间引起了更多的兴趣。
- 美国和欧洲的保守和风险规避公司开始使用我们的工具,因为他们现在相信我们能够安全地处理他们的数据。
- 公司内的工程师们意识到,其中一些工具和流程能够提高他们的工作效率和改善数据质量,并帮助我塑造了一些工作;反过来,这帮助我们在一个非常需要结构的公司中创造了迫切需要的结构。
- 随着时间的推移,这个认证使我们成为了一个更成熟的公司,建立了坚实的客户基础,并帮助我们度过了一次困难的经济衰退。
- 从个人来说,我投入了很多努力来理解大规模后端系统、数据流水线以及Hadoop和Kafka等技术,这使我成为了一个更优秀的工程师。这使我能够在Netflix、Google和Uber等公司担任高级技术领导职务,在LinkedIn上教授课程,然后撰写了这本关于技术隐私的书籍。
对工程师来说,这个教训是:隐私不仅仅是为了避免罚款和重复工作;如果做得正确,它可以区别你的技术产品,并提升你所在公司和个人的发展。
到目前为止,你已经看到隐私如何影响公司,包括法规罚款和因短视的技术决策而导致的低效。你还看到了良好隐私实践的益处。理解在这一领域中你的表现如何影响社会的信任、安全和关系对工程师来说至关重要。下一节将更具体地介绍这一切,我们将考虑在一个不遵循良好隐私实践的公司内部,以及在一个遵循良好实践的公司内部的工作流程。
隐私:一种心智模型
我们已经讨论了为什么隐私很重要,但为了更好地理解,让我们考虑一种情景,其中一家公司没有遵循良好的隐私实践。然后我们将看看在遵循良好实践时会发生什么变化。本节将为您简要概述隐私工程的一些核心原则,随着本书的进展,我将对其进行更详细的展开。
图1.4展示了一家以错误方式处理隐私的公司。该公司开发了一款运行在智能电视上的应用程序,当用户打开电视时,数据就开始从电视流向公司的服务器。请注意数据是如何被公司摄入的。然后它在各个系统之间被共享、复制、繁殖和存储,直到工作流的后期才对其进行分类或清单记录。到那时,工程师及其工具可能已经使用了导致隐私问题的数据。公司将在组织和处理这些分散数据方面面临真正的麻烦。我们将在第4章进一步讨论这个问题,但现在让我们考虑收集这么多数据、不知道其中哪些部分会引发隐私风险以及未能正确保护它的影响。许多数据泄露、罚款和隐私滥用可能就是由于这种不慎设计而产生的!
在本书中,我的目标是让您将良好的隐私措施视为业务的基础组成部分。数据一进入公司就应该经过隐私保护措施,这将带来更有效的数据管理、更好地控制谁可以访问什么数据,以及更低的隐私侵犯可能性。图1.5展示了一家做得正确的公司。第3至9章将使您能够像这家公司一样看待隐私。您将学习设计良好的数据治理,以帮助在数据摄入点识别隐私风险,并学习构建正确的工具、自动化和流程来执行隐私保护。这种顺序——治理和工具——非常重要,它将帮助工程师提高隐私保护水平,同时也提高数据质量和生产效率。
让我们稍微放大一下图1.5中的公司,并看看隐私流程中的各个过程。图1.6展示了在这个新世界中标记和编目的工作方式。我们将在本书的后面部分详细讨论这些技术,但这个图表展示了在数据进入我们的生态系统后,个别数据字段的值如何改变。您可以看到,字段是带有其核心值进行摄入的,然后我们附加一个标记,表示其隐私风险。标注为“数据标记服务”的方框只是一个简单的占位符,代表了一个完整的数据清单基础设施,您将在后面详细了解。
目前的关键点是,这种早期标记将使您能够为数据附加可执行的数据处理策略(删除、保留等)。这创建了一个隐私工程体系结构,在早期将隐私控制嵌入到数据本身中。这个图表传达了一个简单的观点:隐私没有秘诀,只有及时的识别和自动化的协调。
我们已经在高层次上考虑了隐私工作流程,我将在本书的过程中对这些主题进行更详细的扩展。目前,我希望这让您对隐私流程有了更清晰的了解,并了解管理不善和管理得当的影响。
在考虑了隐私工程的具体影响之后,让我们继续以稍微抽象的方式来思考。下一节是针对那些感到自己必须在发布功能和赢得信任之间做出选择的工程师。
隐私如何在宏观层面影响您的业务
在您陷入仅仅对隐私进行战术性调整并称之为胜利之前,让我们看看业务环境的重大变化或监管情绪的变化如何也可能影响到您公司的隐私实施。我们将讨论两个最近的例子。首先,我们将考虑到,与我们的线下生活一样,我们的在线生活和业务方式都依赖于信任和安全。接下来,我们将考虑隐私法规对您的业务运作方式的影响。
隐私和安全:COVID版
在各种规模的企业中,工程师和其他技术领导人会提出以下类似的问题:
在有限的资源和艰难的路线图下,为什么我们要花那么多时间来关注隐私呢? 每个人都在收集数据,我们已经见过一些公司在隐私方面表现糟糕,但他们的股价似乎飙升。为什么要关心隐私呢? 这些答案可能听起来有些违反直觉,但一旦经过一些思考,它们就会变得明显。企业运作基于可预测性,而在信任的基础上才能取得成功。当可预测性被打破,信任被侵蚀时,业务的可持续性往往会受到影响。
我们可以与冠状病毒进行有趣的类比。大流行改变了我们的生活方式。繁忙的街道、拥挤的体育中心、满满的会议厅、熠熠生辉的婚礼场所都变得寂静无声。人类的联结在历史上一直是舒适和追求的象征。但在冠状病毒时代,它变成了一个威胁向量,一种传染的入口点。
人类的身体活动和由此产生的商业活动建立在信任和安全的基础上。当这些要素消失时,我们的经济引擎停止运转、衰退。同样,我们在线上的生活也建立在信任和安全之上。
我在2000年作为一个十几岁的少年移居美国时,用昂贵的电话卡给父母打电话。除了费用问题,这个过程还很痛苦:一个免费电话号码,后面是一串长长的个人识别码(PIN),然后可能是一个不可靠的连接。充值卡余额和购买新卡也不是一件简单的事。
20年后,与我在孟买的父母联系变得更加简单和便宜。WhatsApp、Skype和Google Meet提供了可靠、快速、廉价的数据驱动连接。这种连接是无处不在和个人的。我可以看到他们,中途发送信息,并将这次对话与其他媒体连接起来。所有我在线上的活动都建立在安全的基础上,包括订购杂货、外卖、叫车和订票。在线商务依赖于信任和安全。
如果你是一个依靠在线上商品、观念、金钱和信息交流的工程师,你会从这种信任中获益,因此你有责任保持其安全。就像人们因为病毒的恐惧而暂停了一生的习惯一样,在线商务同样容易受到信任不足的影响,而隐私是信任的一个组成部分。如果你的客户觉得他们的数据和身份在你的掌控下不安全,他们会转向其他地方购物。这就是为什么工程师需要关注隐私的原因。
还有你的声誉和法律合规的问题。新通过的法律给监管机构提供了前所未有的工具,可以深入了解你的隐私做法。随之而来的审查可能会揭示出过去基于完全不同的数据做出的决策,但在当前情况下却导致隐私结果不佳。
隐私不再是公司可以选择性参与的利他事业;公众对隐私的认识和关注比以往任何时候都要敏锐,企业在处理和保护客户数据方面面临着越来越多的审查。公司犯的错误和糟糕的决策比以往更有可能被揭示出来。你应该将你的隐私计划视为一项投资,它将使你能够保护你的客户,并使你的业务成为值得信任的对象。
话虽如此,下面的小节将解释为什么使用客户数据的公司需要将公众舆情、法律法规、调查和业务增长视为相互关联的,就像信任和业务增长之间的相互关联一样。许多实际工作中的领导人都忙于日常工作,没有时间去建立这些联系,他们觉得自己总是处于被动应对的状态,从未有时间制定愿景。
隐私与法规:一个循环过程
理解隐私对于业务成功的重要性有助于我们更好地把握隐私问题。图1.7展示了显而易见的第一步,即政府颁布隐私法律。
然而,图1.7忽略了一个事实,那就是与税法不同,税法只有你所居住的州或公司注册所在地的一部分州法和一部分联邦法,而隐私法可以由多个政府颁布多个隐私法。为此,图1.8展示了两个有影响力的法域和两个隐私法。例如,欧盟通过了自2018年5月起生效的《通用数据保护条例》(GDPR),而加利福尼亚州的《加利福尼亚消费者隐私法》(CCPA)自2020年1月起生效。
一旦这些法律生效,监管机构和审计员就可以使用它们。监管机构可以对公司以及那些可能早于这些法律通过的公司的做法进行调查。同时,公司可能会接受审核以证明其对这些法律的合规性,并且可能需要在签订企业合同或获得特定市场准入之前证明其合规性。图1.9阐明了这一点。
正如图1.9所示,不同的政府可能会通过多种不同的隐私法律,而这些法律反过来可能会引发同时进行的审核、调查和同意法令(即政府和公司就调查结果达成的具体协议)。对于小型公司来说,只有几个关键团队成员同时处理IT、安全和隐私问题,这可能构成重大的运营负担。它几乎肯定会影响生产力和产能。本书专注于实用技能,旨在尽可能预防此类伤害,并尽快减轻发生的损害。将隐私嵌入产品的数据和设计中至关重要,本书将深入探讨这些技术。
还有另一个层面需要考虑:法律和法规并非孤立存在。就安全和隐私等领域而言,它们通常是对事件的回应。在过去几年中,数据泄露、数据访问不当、用户身份不当或重新识别以及其他个人身份信息的不当使用等问题时有发生。在此类事件反复发生后,媒体和隐私活动人士开始密切关注那些被认为在隐私方面表现不佳的公司。这种关注导致媒体对其进行了批评性报道,进而引起了公众的关注。
对于小公司而言,这可能导致业务损失和关系受损。对于大公司来说,这将形成一片声誉阴云,即使危机过去后也会持续存在。无论你的企业规模如何,都至关重要的是你要及早采取措施来解决隐私漏洞,以免其变成无法弥补的鸿沟。
任何精明的公关专家都会告诉你,最好的损害控制是控制你造成的损害程度。作为一个兼顾多个角色的技术领导者,你必须问自己:“你何时更愿意优化良好的隐私和数据治理?”是在企业的早期阶段制定战略时,还是在第一个隐私问题出现时,还是在增长停滞、由于糟糕的隐私实践而陷入危机模式时?
如今的技术人员有一个比零稍微领先的优势。过去几年中提供了许多与隐私有关的数据点,包括公司和政府的失误以及隐私专注供应商开发的工具。鉴于这些丰富的资源,如今的领导者有机会制定隐私战略,避免过去伤害了公司的挫折。
本书旨在帮助你在构建隐私工具时把握好时机。我经常重复一句我在Netflix时代的一位导师所说的话:“做正确的事情最好的时机是昨天,第二好的时机是今天。”
我们已经详细讨论了隐私如何影响你的业务。现在让我们介绍一些可供选择的选项,这些选项将帮助你解决隐私问题并自动化隐私流程和工具化。
隐私技术和工具化:你的选择与决策
鉴于隐私、安全和风险方面的新闻报道和审查,不难理解为什么隐私技术领域的初创公司如雨后春笋般涌现,风险投资公司也在这个至关重要的领域不断注入资金。我已经无法计算有多少风险投资公司寻求我的意见,询问潜在投资产品的吸引力。同样众多的是那些初创公司和早期隐私技术公司,他们经常联系我进行概念验证和试点,寻求知名用户的采用。
工程师们需要能够将隐私工具化分为三个方面:
- 了解 - 确定和定位敏感数据的位置
- 减少 - 通过混淆和删除减少表面面积
- 保护 - 通过强制访问控制进行保护
在购买或构建工具时,工程师们需要了解他们解决的问题以及所考虑的工具或方法如何对解决方案起作用。然后他们需要做出关键选择:是自行开发内部隐私工具还是购买第三方现成解决方案,这些解决方案可以从综合的隐私平台到更具针对性的解决方案各有不同。我使用类似图1.10的框架来帮助我的决策过程。
“自建 vs 购买”的问题
“自建 vs 购买”是一个对工程师来说至关重要的问题。最终,工程师将不得不实施所选择的解决方案,因此他们有必要拥有明智的观点。
工程师和技术项目经理倾向于选择“自建”选项,出于以下几个原因:
- 自建解决方案能够与公司现有的技术栈保持一致,并且在分布式架构中可能更容易集成。
- 受到隐私工具间隙和效率低下的直接影响的工程师可以更直接地构建与当下需求密切相关的技术解决方案。
- 对于已经熟悉公司业务相关客户和数据的内部工程师来说,基于这些信息构建机器学习(ML)模型可能更容易实现。
- 当工程师希望采购第三方工具时,往往会遇到财务领导的阻力。公司对工程师购买过多带有昂贵许可证的工具变得谨慎起来。
我同意这些观点,但只是在某种程度上。自建解决方案也存在一些限制:
-
正如之前提到的,工程师通常处于孤立状态,很少会全面考虑技术栈或端到端数据流程。相反,他们倾向于专注于与其产品相关的部分。正是这种深度优先而非广度优先的优先级排序使他们对下游的隐私和安全影响视而不见,因此让同样的工程师构建具有端到端覆盖的隐私工具可能存在风险。我观察到这样的工具常常受到最近偏见的限制,这些解决方案解决的是最紧迫的最新问题,而不是通过预测分析来预防未来的隐私问题。这些“自建”解决方案通常优化的是“止血”,而不是“增强功能”。
-
工程师经常会更换工作和团队,这可能会导致可维护性问题。隐私工具通常需要深入挖掘数据仓库、数据流水线和API,并且需要支持高度的扩展性和可用性。缺乏稳定的拥有权可能会损害公司内部构建隐私工具的能力,以及构建必要的基于数据的机构记忆,以预防和修复隐私问题。
-
现代B2C服务通常优化可用性而非一致性(例如Twitter或TikTok这样的服务可能会出现后端错误,但用户可能永远不会注意到,鉴于可用内容的数量),而隐私工具可能需要支持审计和报告。这些审计测试精度和完整性,使用经过验证和基准测试的第三方工具可能比冒险使用内部工具更好,因为在隐私事件发生时,内部工具可能会漏掉或错误陈述关键数据。
在“自建 vs 购买”辩论中,没有一种完美的解决方案适用于所有情况,但是当工程师探索自动化和操作化隐私的选择时,上述考虑因素应作为指导原则。除非您有大量工程师专门负责内部工具的构建,否则您可能需要探索第三方解决方案。下一小节将探讨这一领域中的一些常见工具,并为分析和决策提供一个起点。
第三方隐私工具:它们真的有效且可扩展吗?
鉴于我在隐私领域工作了很长时间,我对几个知名的和新兴的隐私工具非常熟悉。我在它们的不同发展阶段使用过几个工具,并评估过其他几个工具。我想真实地评估这些工具的用途,因为隐私工具的泛滥导致了缺乏差异化。对于工程师来说,“隐私技术”这个词就像“有机食品”对于购物者一样,因为过度使用和滥用而失去了意义。
工程师们在隐私方面缺乏详细的了解,这使得选择过程变得繁琐。此外,这些工具需要集成到多个接触点,如API、数据存储、终端、密钥管理系统等,这个过程是昂贵的。同样昂贵的是将其排除和替换的过程,因此工程师需要了解一些常见的第三方解决方案的能力。
隐私平台解决方案:BigID 和 OneTrust
对于经常在发现敏感数据和保护敏感数据方面感到困惑的工程师来说,他们需要工具来开始这种发现,并且他们还需要构建用于数据删除、导出、同意、混淆、共享和目录化的工具。工程师通常在一大批数据已经存储在数据仓库中之后才开始使用隐私工具,因此他们更喜欢使用尽可能多满足他们需求的平台解决方案。
BigID(bigid.com)在这个领域是早期行动者,因此在大规模基于云的公司中经过了试验和测试。(声明:我曾在2015年参与评估BigID时任职于耐克公司。)
BigID提供了几个关键功能:
- 数据清单和目录化——与Gamesbuster中的IP地址类似,工程师需要工具来检测和索引大规模的数据。BigID可以使用机器学习模式和血统追踪来帮助映射敏感和个人数据、元数据和文档。
- 聚类分析——基于其数据目录,BigID可以提供您对哪些数据存储包含敏感数据的可见性,以便您可以有针对性地执行删除工具。这种分析还使BigID能够将数据关联到所有者(以减少孤立数据集的存在),从而降低整体风险。
- 数据处理——在构建了数据的索引目录之后,BigID尝试提供对主体数据索引的集中视图和API访问。这使得公司可以根据像加利福尼亚州的CCPA这样的法律要求,删除数据并将其导出以满足用户的请求。
- 合规映射——对于通过合作伙伴平台和其他端点进行的数据传输等活动,BigID旨在将您的隐私流程与GDPR等法律要求进行映射,从而加速您的审计合规性。
BigID是一款适用于需要实现隐私自动化全流程覆盖的企业的吸引人产品,但它缺乏定义高速发展企业的关键功能:
- BigID在数据流程的末端操作,即在数据已经被访问和利用之后,因此可能在某些隐私风险未被发现之前提供隐私控制,稍显迟缓。
- 通常情况下,BigID在数据规模相当大的阶段被使用;其发现过程在准确性和性能之间进行了必要的权衡。根据我的最新经验,BigID依赖抽样来发现敏感数据。因此,您要么处理与抽样固有的近似值,要么处理更全面覆盖所带来的延迟。
- 尽管BigID的目录化支持数据删除,但其在验证第三方删除方面的能力有限。这是一个关键的限制,因为与第三方共享可疑数据已经给大大小小的公司带来了麻烦。验证第三方删除是至关重要的。 我发现工程师不得不构建定制工具来发现元数据,并在数据存储(如Hadoop)中推动删除,以弥补BigID的不足和企业在使用BigID之前收集的大量数据所造成的差距。我还观察到,公司内部的工程师能够构建比BigID更好用的发现工具,因为他们对同事们如何收集和使用数据更为了解。因此,与BigID提供的工具相比,他们的工具更常用。这并不是对BigID产品的批评,但工程师在选择工具之前需要了解这一点。
如果您的隐私操作由法律和/或合规团队负责,并且有承包商和工程师手动执行操作,那么OneTrust非常有用。换句话说,OneTrust提供了一个清单界面,以防止您创建定制流程或在标准流程中忽略步骤。简而言之,OneTrust是工作流自动化工具,您可以使用它创建可重复的自动化流程,将隐私验证的工作外包给不负责构建与收入密切相关产品的个人。如果您作为一名工程师的唯一目标是不必担心隐私问题,将其成为其他人的问题,那么OneTrust是一个很好的工具。
工程师真正需要的是一个关于隐私和治理的全面思维模型,其中自动化嵌入到数据中,而不是通过塑造流程来解决隐私问题。希望OneTrust解决您的隐私问题就好像希望创可贴能够缓解脑肿瘤一样,并不现实。
隐私点解决方案:Privacera、Collibra、DataGrail、Informatica、SailPoint
考虑到许多公司都在使用大量的数据进行客户分析和广告投放,并且它们具有不同的文化和不同程度的隐私风险,拥有像BigID这样的平台工具可能并不明智。
举个例子,如果你是一家医疗保健公司的工程师或技术项目经理,你和你的同事们在数据收集方面可能受到更多限制,而社交媒体平台的工程师则更需要收集大量数据来构建预测行为模型。对于医疗保健公司的工程师来说,数据发现可能不是最迫切的挑战,因为有规定指导谁可以收集什么样的数据(以及多少)。对于医疗保健工程师来说,关键挑战可能是管理与患者相关的敏感健康数据的访问。
在这种情况下,一个提供字段/列级别访问控制策略管理和数据加密的点解决方案可能更合适。像Privicera (privacera.com/products/en…) 这样的工具可能提供这样的功能,尽管我对这个产品的经验不足以证明它能够适应大量和多样化的数据。
点解决方案的好处在于,与其提供一整套隐私工具,内部工程师和技术负责人可以根据当前需求优化这些解决方案,甚至可以利用它们了解工作的规模。一旦积累了足够的经验,工程师可以更容易地构建内部工具,并且更容易做到正确,而不是浪费时间。
也有一些专注于数据发现的解决方案。Collibra (www.collibra.com) 提供了一种通过追踪数据血统来获得所有相关数据的可见性的能力。类似地,像DataGrail (www.datagrail.io/platform/) 和Informatica (www.informatica.com/products/da…) 这样的工具通过查看数据上游而不是在数据仓库中来提供数据编目功能,特别是在数据量大的情况下。
我详细研究现成的工具的原因是,小公司和大公司的工程师和技术负责人经常不得不在压力和有限预算下做出购买决策。这将有助于他们建立一个框架,将他们的需求与这些工具相匹配;这不仅对于做出正确的“自建还是购买”决策至关重要,而且还能够向财务利益相关者解释为什么特定的方案是合理的。每种选择都有不同的权衡,公司避免承担不可逆转的行动、进行昂贵的投资并且未能降低隐私风险是非常重要的。
此外,工程师及其与财务部门的合作伙伴(他们需要批准任何第三方工具的请购)并不总是对这些工具之间的差异有相同的理解。此外,根据我的经验,此类工具的预算通常在危机中才会释放出来,此时很难对目前适合的工具进行清晰的分析。这就是为什么公司最终购买错误的工具,发现它们不令人满意,然后为专门的内部团队构建增补的自定义工具。这种缺乏纪律性会导致不良的指标和对隐私成本过高的感觉。
工具是隐私工程的基础要素,现在你已经初步了解了该领域的选择,我们可以讨论购买现成解决方案的风险。
购买第三方隐私工具的风险
小型和中型企业以及大型企业往往认为隐私是一种可以交给信誉良好的第三方工具处理的破坏者。我们在做税务申报时也采用了这种思维方式,使用税务申报软件而不是手工填写税表。这种方法存在两个风险。
首先,以2021年6月为例。据《卫报》的亚历克斯·赫恩报道,一次大规模的互联网故障影响了包括《卫报》、亚马逊和Reddit在内的多个网站,故障源于由Fastly公司运营的内容分发网络(CDN)的故障。此故障导致访问众多网站的用户收到错误信息。除了完全使某些网站瘫痪外,故障还导致其他服务的特定部分出现问题,例如Twitter的服务器无法正常显示表情符号。
Fastly是一家提供云计算服务的公司,运营着一个边缘云,旨在加快网站的加载速度,保护其免受拒绝服务攻击,并帮助其处理突发的访问量。Fastly位于大多数客户和其用户之间;如果Fastly的服务遭遇灾难性故障,这可能导致其客户完全无法运营。
将技术堆栈中的关键环节依赖于第三方意味着单点故障可能导致广泛的故障。另一个例子是在2017年,亚马逊网络服务(Amazon Web Services)的问题导致美国东海岸的一些全球最大的网站停机数小时。鉴于对隐私的关注,您真的认为将关键数据保护功能外包给第三方工具是明智的吗?
其次,考虑到公司之间的技术堆栈和路线图的多样性,一个通用的现成工具不太可能适用于当今的大多数企业。
这并不是要否定这些工具的作用,而是提出一个论点,即解决当今的隐私需求需要公司工程师的参与程度,即使在获得工具后也是如此。
工程师的角色如何发生变化,以及这对隐私产生了什么影响
当我于2003年开始编写代码时,工程领域的工作方式和专业企业与客户之间的关系都有可预测的节奏。工作具有结构化的、自上而下的感觉,追求着按部就班的纪律以实现预期结果。与其寻求创新的刺激,企业领导者更倾向于慢慢但确定地收获纪律。这意味着我的目标是从我的经理的目标派生出来的,他们的目标又是从领导层的更高级别的目标派生出来的。我的角色是执行和实施,而不是构思和创新。
我们的工作成果以及生产这些成果所需的执行力是这种纪律的产物。我记得有人用“瀑布模型”来形容它。A团队会制作出一些东西,交给B团队,经过一段预定的时间后,再交给C团队,以此类推。
与客户的关系也是缺乏悬念而充满确定性。客户的需求驱动我的技术实现;思想的流动是单向的。执行最好的公司排在前面。从互联网泡沫破裂的余烬中崛起,关注的焦点是效率而不是想象力。
然后,在2008年的经济危机之后,上层领导共识和制度信任似乎遭到了破坏。这种情况在整个社会中都在发生,各色人等都感到自己信任的专家是冒牌货。随着工作和收入的消失,顶层专家拥有所有答案的观念也消失了。
在这种不稳定的动态中,涌现出了一种新型的技术人员。不论资历如何,工程师成为了创业家,创造了一种自下而上领导的愿景。在这个愿景中,不同的团队共同努力,创建了一个以三个D为核心的新型互联创新过程的理念。
第一个D是数据,数据驱动变革,衡量结果,并通过分析塑造出能够让客户满意的产品和体验。随之而来的客户参与将推动企业的收入。
第二个D是分权,多个工程师基于自己的想法、工具和愿景构建产品。通过创新的每一次迭代,他们会创建一个快速反馈循环并扩大他们的范围。过程被淘汰,进步取而代之,获得客户信任的产品将被发布。在这个达尔文主义的世界里,只有适者生存。
第三个D是民主化,初级工程师和数据科学家通常比高级领导层更具影响力和对产品领域的理解。与个体贡献者需要向权威屈服不同,管理者必须展示他们具有影响力。
这三个D使工程师和技术项目经理比以往任何时候都更具有自主性和主动性,即使在20世纪90年代末的高科技全盛时期也是如此。然而,这也导致了通常由中央团队(如IT部门)掌握的权威在控制工程师决策方面的减弱。这意味着网络安全和隐私等团队很难实施一致性和一致性的要求。这些通常被错误地视为对业务的阻碍而不是帮助。图1.11总结了这些挑战——我经常在与高级执行官的会议上使用这个图表,以便他们了解工程对隐私造成可预测且可解决的挑战。
技术行业从创造财富的英雄形象转变为数据囤积者,并成为从伯尼·桑德斯到史蒂夫·班农等各方面遭受指责的对象,这种变化源于技术贡献者角色中的这些基本功能变化。
更具体地说,这些变化在公司如何收集和使用客户数据方面引发了怀疑。当不从事技术工作的朋友和家人问我类似这样的问题时,我能感受到这种怀疑:“公司XYZ是如何盈利的?”或者“我怎么知道公司ABC不会像Equifax那样遭受攻击?”甚至是“这些大公司的每个人都能访问关于我的生活的私密细节以赚取钱吗?”这种被广泛讨论的技术逆袭是对这些问题的表达。
在大公司中,领导者和高管通常来自其公司的产品开发或财务部门,他们缺乏技术知识和对隐私的直觉。对于预算有限、利润更薄、团队规模更小的小公司来说,在这个领域面临的挑战更加艰巨。技术领导者和架构师必须兼顾多个角色,而且通常缺乏跨职能变革所需的带宽和权威,因为大多数产品团队在各自的领域中运作,并专注于他们的季度目标,而隐私则是一个遥远的担忧。
对于大多数公司来说,关于隐私的问题是在一段增长期之后出现的,通常在不可逆转的决策达到成熟之后。正是在这个背景下,我写下了这本书。
本章为您提供了思考隐私及其相关概念的基础。此外,您现在可能对产品垂直团队的运作方式有了更清晰的认识——他们的独立运作和路线图驱动的方法有助于您的业务增长,但往往会带来下游的隐私挑战。所有这些都发生在企业与其客户之间的关系在不断变化的社会背景下。在这个背景下,下一章将深入探讨如何帮助您构建一个可根据您的公司和客户进行定制的隐私计划。