sqoop企业实战教程

221 阅读1分钟

1.sqoop来源

针对不同的数据源之间进行数据同步。

1、关系型数据库中数据怎么导入到hdfs、hbase(压缩或者非压缩)?
2、hdfs中的数据(压缩)怎么导入关系型数据库中?
3、增量数据导入?

2.sqoop定义

sqoop是一个hadoop和关系型数据库之间高效批量数据同步工具。

导入:
关系型数据库 -----> hadoop(hdfs\hive\hbase...)
导出:
hadoop(hdfs) ----> 关系型数据库

3.sqoop的本质

使用mapreudce来进行数据同步,主要是使用mapper(分而治之的思量)

优点:跨平台数据同步
缺点:不是很灵活。

4.sqoop的安装

4.1 前提
1 hadoop的安装参考地址
2 需要jdk
3 需要准备关系型数据库的依赖jar包
4.2 安装
1.解压配置环境变量

[root@hadoop01 local]# tar -zxvf /home/sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz -C /usr/lo