大数据-21 Sqoop 数据迁移 ETL工具 MySQL与Hive数据互相迁移导入导出Apache Sqoop 是一

点一下关注吧！！！非常感谢！！持续更新！！！

🚀 AI篇持续更新中！（长期更新）

目前2025年06月16日更新到： AI炼丹日志-29 - 字节跳动 DeerFlow 深度研究框斜体样式架私有部署测试上手架构研究，持续打造实用AI工具指南！📐🤖

💻 Java篇正式开启！（300篇）

目前2025年06月25日更新到： Java-54 深入浅出分布式服务基本概念对比集群常见模式通信方式三态详解 MyBatis 已完结，Spring 已完结，Nginx已完结，Tomcat已完结，分布式服务正在更新！深入浅出助你打牢基础！

📊 大数据板块已完成多项干货更新（300篇）：

包括 Hadoop、Hive、Kafka、Flink、ClickHouse、Elasticsearch 等二十余项核心组件，覆盖离线+实时数仓全栈！目前2025年06月13日更新到： 大数据-278 Spark MLib - 基础介绍机器学习算法梯度提升树 GBDT案例详解

请添加图片描述

章节内容

上一节我们已经完成了：

Flume 采集数据
Flume 3个Agent编写
Flume 双写：本地+HDFS

背景介绍

这里是三台公网云服务器，每台 2C4G，搭建一个Hadoop的学习环境，供我学习。

2C4G 编号 h121
2C4G 编号 h122
2C2G 编号 h123

请添加图片描述

注意事项

Apache Sqoop 于 2021 年 6 月迁入 Attic。 Apache Sqoop 的使命是创建和维护与 Apache Hadoop 和结构化数据存储相关的大规模数据传输软件。虽然项目已经可能过时，但是如果你的时间充裕的话，可以适当地学习一下，可能会对你有一定的帮助的！！！

Sqoop介绍

Sqoop 是一款开源的工具，主要用于在 Hadoop（Hive）与传统数据库（MySQL等）之间进行数据的传递。可以将关系型数据库：（MySQL等）中的数据导入到HDFS中，可以将HDFS中的数据导入到传统数据库中。

从关系型数据库导入数据到 Hadoop（HDFS、Hive、HBase）
将 Hadoop 上的数据导出回关系型数据库

Sqoop项目开始与2009年，最早是Hadoop的一个第三方模块，后来为了让使用者快速部署，Sqoop独立成为了Apache的项目。

它将导入或导出命令转换为 MapReduce 程序来实现。 在这里插入图片描述

核心用途

数据导入：将关系数据库的数据导入 HDFS、Hive、HBase 等
数据导出：将 Hadoop 系统中的数据导出回 RDBMS
批量传输：支持大批量并行传输，提高效率
数据仓库同步：与 Hive 集成，方便大数据分析

工作原理

生成 MapReduce 任务：

Sqoop 本质上通过自动生成 MapReduce 程序完成数据传输，每个 mapper 处理部分数据。

数据并行导入/导出：

读取数据库元数据（表结构、主键等）
将导入任务划分成多个 mapper，每个 mapper 连接数据库并读取数据分片

支持多种目标系统：

输入端：MySQL、Oracle、PostgreSQL、SQL Server 等
输出端：HDFS、Hive、HBase、Avro、Parquet、SequenceFile 等

+------------------+           +--------------+           +----------------+
| 关系型数据库     | ← JDBC →  |   Sqoop CLI  | → MR Job →| Hadoop/Hive/HBase|
+------------------+           +--------------+           +----------------+

核心命令

这里放几个示例

导入 MySQL 表到 HDFS

sqoop import \
  --connect jdbc:mysql://localhost/db \
  --username root \
  --password 123456 \
  --table employees \
  --target-dir /user/hadoop/employees \
  --num-mappers 4

从 Hive 导出数据回数据库

sqoop export \
  --connect jdbc:mysql://localhost/db \
  --username root \
  --password 123456 \
  --table employees \
  --export-dir /user/hive/warehouse/employees

限制和缺点

基于 MapReduce，速度有限：不适合实时场景，启动和调度延迟较大
JDBC 驱动依赖：需要手动提供 JDBC 驱动包
停止维护（已进入孵化期）：Apache 已将 Sqoop 停止活跃开发，未来建议转向新工具

代替工具推荐

Apache NiFi：更灵活可视化，支持实时数据流
Apache Flink CDC：实时、增量同步，基于变更数据捕获
Apache Gobblin：大规模数据管道，支持多数据源
Airbyte / Debezium：新兴开源同步工具，增量+实时同步，
Spark + JDBC：自定义能力强，用 Spark 读取/写入数据库更灵活

Sqoop 的场景

日常批量导入数据，如每天夜间从数据库同步数据到 Hadoop 分析平台
将 Hive/HDFS 上的分析结果导出回数据库供前端报表系统使用
不关心“实时性”，容忍导入/导出延迟数分钟到数小时的离线场景

Sqoop下载

下载 1.4.7 版本，这是最后一个稳定的版本了。后续项目就迁移了。

http://www.apache.org/dyn/closer.lua/sqoop/

下载解压

我选择了 h122 机器，对其进行测试。在这里插入图片描述

tar zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz
mv sqoop-1.4.7.bin__hadoop-2.6.0/ ../servers/sqoop-1.4.7/

环境变量

vim /etc/profile

向其中写入如下内容

# sqoop
export SQOOP_HOME=/opt/servers/sqoop-1.4.7
export PATH=$PATH:$SQOOP_HOME/bin

在这里插入图片描述退出保存，并且刷新环境变量。

修改配置

cd $SQOOP_HOME/conf

在这里插入图片描述

我们需要修改默认的配置

cp sqoop-env-template.sh sqoop-env.sh

vim sqoop-env.sh

写入如下的内容：

export HADOOP_COMMON_HOME=/opt/servers/hadoop-2.9.2
export HADOOP_MAPRED_HOME=/opt/servers/hadoop-2.9.2
export HIVE_HOME=/opt/servers/hive-2.3.9

修改结果如下图：在这里插入图片描述

测试结果

控制台测试：

sqoop version

在这里插入图片描述

额外配置

JDBC配置

JDBC驱动需要拷贝到 lib 目录下，由于当前节点是我的Hive节点，之前我已经拷贝过 JDBC 驱动了，这里我从Hive的目录直接拷贝过来即可。

cp $HIVE_HOME/lib/mysql-connector-java-8.0.19.jar $SQOOP_HOME/lib

在这里插入图片描述

Hive配置

Hive驱动也是，如果我们需要链接到Hive，那也需要拷贝一些支持库过来。

cp $HIVE_HOME/lib/hive-*-2.3.9.jar $SQOOP_HOME/lib/

在这里插入图片描述

Hadoop配置

Hadoop 配置同理，这里缺一个Jar包，拷贝一下过来。（不然后续会报错！）

cp $HADOOP_HOME/share/hadoop/tools/lib/json-20170516.jar $SQOOP_HOME/lib

大数据-21 Sqoop 数据迁移 ETL工具 MySQL与Hive数据互相迁移 导入导出

点一下关注吧！！！非常感谢！！持续更新！！！

🚀 AI篇持续更新中！（长期更新）

💻 Java篇正式开启！（300篇）

📊 大数据板块已完成多项干货更新（300篇）：

章节内容

背景介绍

注意事项

Sqoop介绍

核心用途

工作原理

核心命令

导入 MySQL 表到 HDFS

从 Hive 导出数据回数据库

限制和缺点

代替工具推荐

Sqoop 的场景

Sqoop下载

下载解压

环境变量

修改配置

测试结果

额外配置

JDBC配置

Hive配置

Hadoop配置

大数据-21 Sqoop 数据迁移 ETL工具 MySQL与Hive数据互相迁移导入导出