from pyspark.sql import HiveContext
# 初始化SparkSession
spark = SparkSession.builder.appName("ListNonEmptyHiveTables").enableHiveSupport().getOrCreate()
# 创建HiveContext
hive_context = HiveContext(spark)
# Hive数据库名称
database_name = "imh_pbg"
# 查询数据库中的所有表名
table_names = hive_context.sql(f"SHOW TABLES IN {database_name}")
# 创建一个空列表来存储非空表的名称
non_empty_tables = []
# 遍历所有表
for row in table_names.collect():
table_name = row[0] # 假设表名在第一列
# 查询表中的非空行
# 注意:这里我们使用一个简单的条件来检查表是否为空,这可能需要根据实际情况调整
df = hive_context.sql(f"SELECT COUNT(*) FROM {database_name}.{table_name}")
# 如果表中有数据,COUNT(*) 将返回大于0的值
if df.collect()[0][0] > 0:
non_empty_tables.append(table_name)
# 输出非空表的列表
for table in non_empty_tables:
print(table)
# 关闭SparkSession
spark.stop()