人工智能数据集建设全流程详解(之二)

1 阅读2分钟

第二阶段:数据采集与获取(保障数据供给)

本阶段核心目标是按照设计方案,合法、高效地获取所需数据,完成原始数据的聚合与初步处理,确保数据的完整性与合规性。

2.1 公开数据爬取与聚合

• 爬虫开发与优化:开发适配不同数据源的网页爬虫,具备反爬、去重、增量更新功能,避免爬虫行为违反网站robots协议,控制爬取频率,防止对目标网站造成压力。

• 文档解析处理:对采集到的PDF、Word、ePub、HTML等格式文档,进行文本提取,去除格式冗余,保留核心文本内容,确保文本可读性。

• 专项数据抓取:针对代码数据,从GitHub、GitLab等开源平台抓取开源项目代码,过滤无效代码、测试代码;针对多模态数据,抓取图文配对、字幕与视频对齐的数据,确保多模态数据的关联性。

• 初步去重处理:采用SimHash、MinHash等算法,对采集到的原始数据进行近似去重,去除完全重复或高度相似的文本,减少后续处理压力。

2.2 私有/合作数据接入

• 格式转换与统一:对合作方提供的私有数据、自有业务数据,进行格式转换,统一为标准化格式(如JSON、TXT),确保与后续处理流程兼容。

• 批量导入与校验:将转换后的私有数据批量导入数据管理系统,进行数据量校验、格式校验,确保数据完整导入,无丢失、无错误。

• 数据水印与溯源标记:对私有数据、合作数据添加唯一水印或溯源标记,便于后续数据溯源、版权保护,防止数据泄露或滥用。

2.3 数据脱敏与隐私保护(贯穿全程)

核心工作是去除原始数据中的隐私信息,确保数据使用符合隐私保护相关法律法规,避免隐私泄露风险。

• 敏感信息识别与擦除:通过规则匹配、AI识别等方式,识别并擦除数据中的手机号、身份证号、银行卡号、家庭地址、姓名等个人隐私信息。

• 隐私信息替换:对无法完全擦除的隐私信息(如对话中的人物身份),采用化名、模糊化处理(如将“张三”替换为“用户A”,将具体地址替换为“某城市”)。

• 隐私保护技术应用:对敏感程度较高的数据,采用差分隐私、k-匿名等技术,降低数据的可识别性,同时保留数据的可用性,避免因脱敏导致数据失效。

输出物:原始语料库、脱敏日志、数据源溯源表、数据采集报告。