人工智能数据集建设全流程详解（之二）第二阶段：数据采集与获取（保障数据供给）本阶段核心目标是按照设计方案，合法、高效地

第二阶段：数据采集与获取（保障数据供给）

本阶段核心目标是按照设计方案，合法、高效地获取所需数据，完成原始数据的聚合与初步处理，确保数据的完整性与合规性。

2.1 公开数据爬取与聚合

• 爬虫开发与优化：开发适配不同数据源的网页爬虫，具备反爬、去重、增量更新功能，避免爬虫行为违反网站robots协议，控制爬取频率，防止对目标网站造成压力。

• 文档解析处理：对采集到的PDF、Word、ePub、HTML等格式文档，进行文本提取，去除格式冗余，保留核心文本内容，确保文本可读性。

• 专项数据抓取：针对代码数据，从GitHub、GitLab等开源平台抓取开源项目代码，过滤无效代码、测试代码；针对多模态数据，抓取图文配对、字幕与视频对齐的数据，确保多模态数据的关联性。

• 初步去重处理：采用SimHash、MinHash等算法，对采集到的原始数据进行近似去重，去除完全重复或高度相似的文本，减少后续处理压力。

2.2 私有/合作数据接入

• 格式转换与统一：对合作方提供的私有数据、自有业务数据，进行格式转换，统一为标准化格式（如JSON、TXT），确保与后续处理流程兼容。

• 批量导入与校验：将转换后的私有数据批量导入数据管理系统，进行数据量校验、格式校验，确保数据完整导入，无丢失、无错误。

• 数据水印与溯源标记：对私有数据、合作数据添加唯一水印或溯源标记，便于后续数据溯源、版权保护，防止数据泄露或滥用。

2.3 数据脱敏与隐私保护（贯穿全程）

核心工作是去除原始数据中的隐私信息，确保数据使用符合隐私保护相关法律法规，避免隐私泄露风险。

• 敏感信息识别与擦除：通过规则匹配、AI识别等方式，识别并擦除数据中的手机号、身份证号、银行卡号、家庭地址、姓名等个人隐私信息。

• 隐私信息替换：对无法完全擦除的隐私信息（如对话中的人物身份），采用化名、模糊化处理（如将“张三”替换为“用户A”，将具体地址替换为“某城市”）。

• 隐私保护技术应用：对敏感程度较高的数据，采用差分隐私、k-匿名等技术，降低数据的可识别性，同时保留数据的可用性，避免因脱敏导致数据失效。

输出物：原始语料库、脱敏日志、数据源溯源表、数据采集报告。