踩坑日记之数据导入

118 阅读1分钟
  1. 表格需要设置为external,否则会将数据文件删除掉,不可饶恕
  2. 表格需要按照文件格式设置划分手段,如MYSQL应设置row format delimited fields terminated by ',',否则会导入空数据
  3. 外部表格需要设置存储位置,需要将之与数据文件同一目录下如LOCATION '/data/table/',减少数据迁移,可以直接连接数据文件
  4. 以location建立的表格如果用count查询不到不要紧张,只是元数据库没有记录新数据,count是从元数据库中直接查询的,可以select * limit一下看看加载成功没。
  5. 流程谨记,先hdfs建立对应路径的文件夹,然后用datax通过json配置从sql导入hdfs,然后在写入文件同路径下以指定location的模式建立hive表,之后将数据文件和hive表建立连接