Hudi学习笔记
CHD6.2.0+Hudi 0.9集成
由于大数据集群使用的CDH6.2.0,spark自带的版本是2.4.0,和hudi要求的2.4.4有一定版本差异,用的过程中也遇到一些问题,在此记录一下
一、.DataSourceUtils$.PARTITIONING_COLUMNS_KEY()Ljava/lang/String异常
在使用saprk-shell演示官网例子的时候,遇到这个报错,具体可以参考这篇文章,写的很详细,和同事折腾了一番之后确实在save 阶段不报错了。
spark-shell --jars /opt/hudi/hudi-0.9.0/packaging/hudi-spark-bundle/target/hudi-spark-bundle_2.11-0.9.0.jar
--packages org.apache.spark:spark-avro_2.11:2.4.4
--conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer
blog.csdn.net/dengxt/arti…
但是这里有个问题,就是指定的basepath 看不到数据文件,估计是和注释掉那段代码有关系
但是实际做查询的时候,数据是可以查到的
那么数据文件到底存哪去了呢?
第二个就是在做时间过滤的时候,会报错
后面做增量查询及指定时间查询的的时候,也会有报错
路径有,但是没有parquet文件
最后根据文件名,找到了临时的存放路径
,在.hoodie,
总结
可以看到通过源码编译的方式去尝试集成hudi,还是有不少兼容问题的,建议升级spark版本或者使用原生系统。