暗数据: 不明确不知道啥含义的数据
分类:大类,每个列属于某个大类别,例如身份证邮箱都属于个人信息
业务类型:数据库列的字段的含义,比如手机号,邮箱
敏感等级:每一列按敏感程度来分级
分类分级系统要做的事情:对数据库的库表列进行分析,对每个列进行分类,确定列的业务类型 方法:nlp文本分析,机器学习
分类简要流程
业务类型配置:可以配置匹配规则。
元数据采集:使用用户配置的账号密码,对于需要发现的数据库和表获取表结构字段和注释,以便进行下一步分析。
数据采样:根据用户的配置,对数据进行采集,采集方式多样化。
引擎分析:可以根据表注释,列注释,列名称,字段内容进行语义分析,机器学习分析,相似度分析,根据评分和匹配度以确定某列是属于哪一种业务类型。
结果确认:最终结果确认
以上是分类流程,分级流程类似,不再赘述。