1.sqoop来源
针对不同的数据源之间进行数据同步。
1、关系型数据库中数据怎么导入到hdfs、hbase(压缩或者非压缩)?
2、hdfs中的数据(压缩)怎么导入关系型数据库中?
3、增量数据导入?
2.sqoop定义
sqoop是一个hadoop和关系型数据库之间高效批量数据同步工具。
导入:
关系型数据库 -----> hadoop(hdfs\hive\hbase...)
导出:
hadoop(hdfs) ----> 关系型数据库
3.sqoop的本质
使用mapreudce来进行数据同步,主要是使用mapper(分而治之的思量)
优点:跨平台数据同步
缺点:不是很灵活。
4.sqoop的安装
4.1 前提
1 hadoop的安装参考地址
2 需要jdk
3 需要准备关系型数据库的依赖jar包
4.2 安装
1.解压配置环境变量
[root@hadoop01 local]# tar -zxvf /home/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/lo