暗数据分类分级

155 阅读1分钟

暗数据: 不明确不知道啥含义的数据

分类:大类,每个列属于某个大类别,例如身份证邮箱都属于个人信息

业务类型:数据库列的字段的含义,比如手机号,邮箱

敏感等级:每一列按敏感程度来分级

分类分级系统要做的事情:对数据库的库表列进行分析,对每个列进行分类,确定列的业务类型 方法:nlp文本分析,机器学习

分类简要流程

image.png

业务类型配置:可以配置匹配规则。

元数据采集:使用用户配置的账号密码,对于需要发现的数据库和表获取表结构字段和注释,以便进行下一步分析。

数据采样:根据用户的配置,对数据进行采集,采集方式多样化。

引擎分析:可以根据表注释,列注释,列名称,字段内容进行语义分析,机器学习分析,相似度分析,根据评分和匹配度以确定某列是属于哪一种业务类型。

结果确认:最终结果确认

以上是分类流程,分级流程类似,不再赘述。