阅读时间: 5 分钟
谷歌云平台是由谷歌提供的一套计算、网络、存储、大数据、机器学习和管理服务,在同一个云基础设施上运行。谷歌云平台下有超过100种产品。在本博客中,我们将详细讨论云数据丢失防护(DLP)。
云数据丢失防护(DLP)提供了访问强大的敏感数据检查。此外,它还提供了一个分类和去识别的平台。
云DLP包括。
- 150多个内置信息类型(或 "infoType")标识符。
- 此外,能够定义自定义的infoType检测器。使用字典、正则表达式和上下文元素。
- 去识别技术,包括编辑、屏蔽、保留格式的加密、日期转移等等。
- 在数据流中检测敏感数据的能力。而且,甚至是结构化文本、云存储和BigQuery等存储库中的文件,甚至是图像内的文件。
- 分析结构化数据以帮助了解其被重新识别的风险。此外,包括K-匿名性、L-多样性等指标的计算。
- 此外,能够自动对整个组织的BigQuery数据进行剖析。而且,项目识别高风险和敏感数据所在的表。
云数据损失预防(DLP)--InfoType检测器
云数据丢失防护(DLP)使用信息类型**(infoTypes),以定义其扫描的内容。信息类型是敏感数据的一种类型。如姓名、电子邮件地址、电话号码、身份证号码或信用卡号码。
此外,Cloud DLP中定义的每个infoType都有一个相应的检测器。云DLP在配置中使用infoType检测器。它通过扫描来确定要检查的内容以及如何转换发现。在显示或报告扫描结果时,也会使用InfoType名称。
让我们来看看一些内置的信息类型(或 "infoType")标识符 --
全局信息类型
本节中的infoType检测器检测全局数据,例如
- AGE: 一个以月或年为单位的年龄。
- CREDIT_CARD_NUMBER: 一个信用卡号码是12到19位的长度。在全球范围内用于支付交易。
- CREDIT_CARD_TRACK_NUMBER: 信用卡追踪号码是一个长度可变的字母数字字符串。用于存储关键的持卡人信息。
- DATE: 一个日期。这个信息类型包括大多数日期格式,包括世界上常见的假日名称。
- DOMAIN_NAME: 一个域名。一个由DNS标准定义的域名。
- EMAIL_ADDRESS:电子邮件地址,用于识别电子邮件的发送或接收邮箱。域名的最大长度为255个字符,而本地部分的最大长度为64个字符。
- FEMALE_NAME:一个常见的女性名字。
- 我们还有许多全局信息类型,如:GENDER, HTTP_COOKIE, LOCATION, MAC_ADDRESS, MAC_ADDRESS_LOCAL, MALE_NAME, MEDICAL_TERM, ORGANIZATION_NAME, PERSON_NAME, PHONE_NUMBER 等等。
凭证和机密信息类型
本节中的infoType检测器检测凭证和其他秘密数据。
- AUTH_TOKEN:认证令牌是一种机器可读的方式,用于确定一个特定的请求是否已被授权给一个用户。这个检测器目前可以识别符合OAuth或Bearer认证的令牌。
- AWS_CREDENTIALS: 亚马逊网络服务账户访问密钥。
- AZURE_AUTH_TOKEN: 用于应用程序认证的微软Azure证书凭证。
- BASIC_AUTH_HEADER: 基本认证头是一个HTTP头,用于向服务器识别用户。它是RFC 1945第11节中HTTP规范的一部分。
- ENCRYPTION_KEY: 配置、代码或日志文本中的加密密钥。
- GCP_API_KEY: 谷歌云API密钥。一个加密的字符串,在调用不需要访问私人用户数据的谷歌云API时使用。
- GCP_CREDENTIALS: 谷歌云服务账户凭证。可用于验证谷歌API客户端库和服务账户的凭证。
- 我们还有很多凭证和秘密信息类型,如 -JSON_WEB_TOKEN,HTTP_COOKIE,PASSWORD,WEAK_PASSWORD_HASH。
文件信息类型
除了扫描和分类文件中包含的信息的能力外。云DLP可以将文档分类为多个企业特定的类别。当与个人身份信息(PII)检查扫描结果相结合时。这种分类对文件风险评估、政策执行和类似的使用情况很有用。
- DOCUMENT_TYPE/FINANCE/REGULATORY: 金融监管文件包括金融法规、税法、规则和指南。
- DOCUMENT_TYPE/FINANCE/SEC_FILING : SEC文件是提交给美国证券交易委员会的正式文件。最常见的SEC表格是10-K和10-Q。
- 文件类型/hr/简历。履历表或履历表(CV)文件。
- DOCUMENT_TYPE/LEGAL/BLANK_FORM : 一个空白的法律表格或模板。这种文件类型通常有多个区域或方框留空,供个人填写,然后将表格提交给法律机构。
- DOCUMENT_TYPE/LEGAL/BRIEF: 法律简报是一份主张案件特定结果的文件,提出支持性观点、法律解释和建议。
- 我们还有许多文件信息类型,如:DOCUMENT_TYPE/LEGAL/LAW , DOCUMENT_TYPE/R&D/PATENT, DOCUMENT_TYPE/R&D/SOURCE_CODE, DOCUMENT_TYPE/R&D/SYSTEM_LOG, DOCUMENT_TYPE/R&D/DATABASE_BACKUP。
按国家划分的信息类型
印度的信息类型
- INDIA_AADHAAR_INDIVIDUAL: 印度Aadhaar号码是一个12位数的唯一身份号码。由印度居民根据他们的生物统计和人口统计数据获得。
- INDIA_GST_INDIVIDUAL: 印度的GST识别号码(GSTIN)是一个独特的标识符。当然,在印度的每个企业都需要征税。
- INDIA_PAN_INDIVIDUAL: 印度个人永久账户号码(PAN)是一个独特的10位字母数字标识符,用于识别个人-特别是缴纳所得税的人。它是由印度所得税部门颁发的。PAN在持有人的一生中都是有效的。
加拿大的信息类型
- CANADA_BC_PHN: 不列颠哥伦比亚省个人健康号码(PHN)发给公民、永久居民、临时工、学生和其他有权在不列颠哥伦比亚省享受医疗保健的个人。
- CANADA_DRIVERS_LICENSE_NUMBER:加拿大十个省中每个省的驾驶执照号码(目前不包括三个地区)。
- CANADA_OHIP: 安大略省健康保险计划(OHIP)号码是发给公民、永久居民、临时工、学生和其他有权在安大略省享受健康保险的个人。
- CANADA_QUEBEC_HIN: 魁北克健康保险号码(也称为RAMQ号码)是颁发给公民、永久居民、临时工、学生和其他有权在魁北克省享受健康保险的个人。
- CANADA_SOCIAL_INSURANCE_NUMBER: 加拿大社会保险号码(SIN)是加拿大用于公民、永久居民和持有工作或学习签证的人的主要识别标志。有了加拿大的SIN和邮寄地址,就可以申请医疗保障、驾驶执照和其他重要服务。
- 我们还有许多关于加拿大的信息类型,如:CANADA_BANK_ACCOUNT,CANADA_PASSPORT。
美国的信息类型
- AMERICAN_BANKERS_CUSIP_ID: 美国银行家统一证券识别程序委员会(CUSIP)的号码是一个9个字符的字母数字代码,用于识别北美的金融证券。
- FDA_CODE。由美国食品和药物管理局(FDA)注册的药物产品名称或活性成分。
- US_ADOPTION_TAXPAYER_IDENTIFICATION_NUMBER: 美国收养纳税人识别号码(ATIN)是美国税务识别号码(TIN)的一种。ATIN是由美国国税局(IRS)颁发给那些正在合法收养美国公民或居民子女的个人。
- US_BANK_ROUTING_MICR: 美国银行家协会(ABA)的路由号码(也称为转运号码)是一个九位数的代码。它用于识别负责为支票或电子交易提供信贷或有权获得信贷的金融机构。
- US_DEA_NUMBER: 美国缉毒局(DEA)的号码是由美国缉毒局分配给医疗服务提供者的。它允许医疗服务提供者开出受控物质的处方。DEA号码经常被用作一般的 "处方者号码",是任何可以开药的人的唯一标识。
- 我们还有许多关于美国的信息类型,如:US_DRIVERS_LICENSE_NUMBER,US_EMPLOYER_IDENTIFICATION_NUMBER,US_HEALTHCARE_NPI,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER,US_PASSPORT等等。
同样,云数据丢失预防(DLP)提供了许多国家的 内置信息类型 ,如 - 英国、土耳其、中国、墨西哥、泰国、瑞典、台湾、葡萄牙、西班牙、新加坡、波兰、秘鲁等。
总之,在这篇博客中,我们已经涵盖了云数据丢失防护(DLP)提供的内置信息类型。在下一篇博客中,我们将看看如何在我们的代码中使用DLP信息类型的演示。
学习愉快! 🙂
参考文献

