第九阶段:合规与安全专项(贯穿全程)
合规与安全是数据集建设的底线,贯穿数据集全生命周期,核心目标是确保数据合法、合规、安全,避免版权纠纷、隐私泄露、敏感信息传播等风险。
• 版权审查:全流程审查数据的版权归属,确保所有数据均具备合法授权(如采购、合作、CC协议等),杜绝侵权行为;对涉及版权的 data,明确使用范围与期限,做好版权登记。
• 隐私脱敏:在数据采集、清洗、标注等所有环节,持续做好隐私信息的识别、擦除、替换,确保数据中无个人隐私信息,符合《个人信息保护法》等法律法规。
• 敏感信息过滤:建立敏感信息过滤规则库,定期更新规则,对数据进行多轮敏感信息筛选,杜绝政治敏感、色情、暴力、歧视等有害内容纳入数据集。
• 数据安全审计:定期对数据集的建设、使用、存储过程进行安全审计,排查数据泄露、滥用等风险,建立审计报告,及时整改问题。
• 可追溯、可删除机制:确保数据的全流程可追溯,同时建立数据删除机制,当用户要求删除相关数据、数据授权到期或数据存在合规风险时,能够快速、彻底删除相关数据及衍生数据。
输出物:合规审计报告、安全风险排查报告、隐私脱敏日志、敏感信息过滤规则库。