业务数据采集

342 阅读1分钟

数据mock

先修改 配置文件
生成数据的springboot代码
java -jar /usr/local/src/sub/mysql/gmall-mock-db.jar

数据同步策略

全量表
    1.数据量不大,但每天新增和修改 例如字典表

特殊表
    1.不变化的 例如省份表和地区表
    
新增表
    1.表数据量大,并且只会有新数据插入 例如订单详情和支付流水表
    
新增和变化表
    1.表数据量大,有新增和修改数据 例如 用户表、订单表
    
    2.拉链表 
      适用于 数据缓慢变化的表

sqoop脚本的编写

#! /bin/bash
sqoop=/opt/module/sqoop/bin/sqoop 
do_date=`date -d '-1 day' +%F`

if [[ -n "$2" ]]; then 
fi

import_data(){
$sqoop import \
--connect jdbc:mysql://master:3306/gmall \
--username root \
--password 000000 \
--target-dir /origin_data/gmall/db/$1/$do_date \ --delete-target-dir \
--query "$2 and \$CONDITIONS" \
--num-mappers 1 \
--fields-terminated-by '\t' \
--compress \
--compression-codec lzop \
--null-string '\\N' \
--null-non-string '\\N'
hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /origin_data/gmall/db/$1/$do_date