源文件会先转编码,到中转文件,导入命令会将中转文件的数据加载到GBase数据库中,并通过CHARACTER SET参数指定数据的字符集。
gbase导入命令会通过CHARACTER SET xxx 参数指定原始数据的字符集,当前GBase 支持的字符集为GB系列(GB2312,GBK,GB18030)和UTF8系列(utf8,utf8mb4)。
对与文件到gbase同步场景出现的乱码问题,目前遇到以下三种情况是生产问题:
一、源文件为utf8,导入的中转文件为utf8,导入命令指定utf8,GBase表为utf8:
- 问题描述:即使源文件存在乱码,只要导入命令和目标表编码都指定为UTF-8,数据依然能够导入成功。
- 原因:在这种情况下,由于目标表编码与导入命令一致,即使源文件存在乱码,也能通过GBase的字符集自动处理乱码,成功导入数据。
二、源文件为 gbk(ms936),导入的中转文件为utf8,导入命令指定utf8,GBase表为gbk:
-
问题描述:源文件乱码情况下不可以导入成功。报错
unknow character set -
方案:
- 指定导入的中转文件编码格式为 gbk,导入命令指定 gbk,则源文件乱码情况下可以导入成功(注意:如果分隔符是欧元符,还需要指定自定义列分隔符为"|"才可以导入成功,gbk中没有欧元符这一字符,ms936才有,否则会报错:
The number of data columns is less than the number of columns defined) - 原先的逻辑:gbkms936这种编码格式文件,gbase导入不支持,需做清洗转换utf8处理,且load gbase指定utf8处理
- 指定导入的中转文件编码格式为 gbk,导入命令指定 gbk,则源文件乱码情况下可以导入成功(注意:如果分隔符是欧元符,还需要指定自定义列分隔符为"|"才可以导入成功,gbk中没有欧元符这一字符,ms936才有,否则会报错:
三、源文件为 gbk,导入的中转文件为gbk,导入命令指定gbk,GBase表为utf8:
-
问题描述:源文件乱码情况下不可以导入成功。报错
unknow character set -
方案:
- 指定导入的中转文件编码格式为 utf8,导入命令指定 utf8,则源文件乱码情况下可以导入成功
- 源文件修改编码格式为gbk(ms936),会将文件编码转换为utf8,所以导入的中转文件编码格式为 utf8,导入命令指定 utf8,则源文件乱码情况下可以导入成功
总结来说,导入过程中需要确保:
- 源文件、目标表和导入命令的字符集匹配。
- 对于跨编码转换的场景,确保中转文件的编码格式与目标表一致,以避免数据乱码导致导入失败。