开源敏感数据匿名化框架Presidio详解

4 阅读3分钟

Presidio - 数据保护和去标识化SDK

一个针对文本和图像的上下文感知、可插拔且可定制的个人可识别信息去标识化服务。

组件概览

  • Presidio Analyzer: 分析组件
  • Presidio Anonymizer: 匿名化组件
  • Presidio Image-Redactor: 图像编辑组件
  • Presidio Structured: 结构化数据处理组件

什么是Presidio

Presidio(源自拉丁语praesidium,意为"保护、驻防")有助于确保敏感数据得到适当的管理和治理。它提供针对文本中私人实体(如信用卡号、姓名、位置、社会安全号码、比特币钱包、美国电话号码、财务数据等)的快速识别和匿名化模块。

完整文档 | 常见问题 | 演示 | 示例

您在使用Presidio吗?我们很想知道您的使用情况 请通过这个简短的匿名调查帮助我们改进。

目标

  • 通过普及去标识化技术并在决策中引入透明度,让组织以更简单的方式保护隐私。
  • 支持针对特定业务需求的扩展性和可定制性。
  • 促进在多个平台上实现全自动和半自动的个人可识别信息去标识化流程。

主要特性

  • 预定义或自定义的个人可识别信息识别器,利用命名实体识别、正则表达式、基于规则的逻辑和校验和,支持多种语言的上下文分析。
  • 连接外部个人可识别信息检测模型的选项。
  • 多种使用方式,从Python或PySpark工作负载到Docker再到Kubernetes。
  • 在个人可识别信息识别和去标识化方面的可定制性。
  • 用于编辑图像中个人可识别信息文本的模块(支持标准图像类型和DICOM医学图像)。

⚠️ Presidio可以帮助识别非结构化/结构化文本中的敏感/个人可识别信息数据。然而,由于它使用自动检测机制,不能保证Presidio能找到所有敏感信息。因此,应部署额外的系统和保护措施。

安装Presidio

  • 使用pip安装
  • 使用Docker安装
  • 从源代码安装
  • 从V1迁移到V2

运行Presidio

  • 入门指南
  • 设置开发环境
  • 文本中的个人可识别信息去标识化
  • 图像中的个人可识别信息去标识化
  • 使用示例和部署案例

支持

  • 提交问题前,请先阅读文档。
  • 一般讨论,请使用代码仓库的讨论板。
  • 如果有使用问题、发现错误或有改进建议,请提交GitHub问题。
  • 其他事宜,请发送邮件至相关联系邮箱。

贡献

有关对此代码仓库做出贡献的详细信息,请参阅贡献指南。该项目欢迎贡献和建议。大多数贡献要求您同意贡献者许可协议,声明您有权并实际授予我们使用您的贡献的权利。有关详细信息,请访问相关CLA网站。提交拉取请求时,CLA机器人会自动确定您是否需要提供CLA并相应装饰PR(例如,标签、评论)。只需按照机器人提供的说明操作即可。在使用我们CLA的所有代码仓库中,您只需要执行一次此操作。

该项目采用了某机构开源行为准则。有关更多信息,请参阅行为准则常见问题解答,或通过相关邮箱联系以获取其他问题或意见。

关于: 一个用于检测、编辑、遮盖和匿名化文本、图像和结构化数据中敏感数据的开源框架。支持自然语言处理、模式匹配和可定制管道。