Hudi学习笔记

CHD6.2.0+Hudi 0.9集成

由于大数据集群使用的CDH6.2.0，spark自带的版本是2.4.0,和hudi要求的2.4.4有一定版本差异，用的过程中也遇到一些问题，在此记录一下

一、.DataSourceUtils$.PARTITIONING_COLUMNS_KEY()Ljava/lang/String异常

在使用saprk-shell演示官网例子的时候，遇到这个报错，具体可以参考这篇文章，写的很详细，和同事折腾了一番之后确实在save 阶段不报错了。

spark-shell --jars /opt/hudi/hudi-0.9.0/packaging/hudi-spark-bundle/target/hudi-spark-bundle_2.11-0.9.0.jar
 --packages org.apache.spark:spark-avro_2.11:2.4.4 
 --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer

blog.csdn.net/dengxt/arti… 在这里插入图片描述但是这里有个问题，就是指定的basepath 看不到数据文件，估计是和注释掉那段代码有关系但是实际做查询的时候，数据是可以查到的那么数据文件到底存哪去了呢？第二个就是在做时间过滤的时候，会报错在这里插入图片描述后面做增量查询及指定时间查询的的时候，也会有报错路径有，但是没有parquet文件最后根据文件名，找到了临时的存放路径，在.hoodie，

在这里插入图片描述

总结

可以看到通过源码编译的方式去尝试集成hudi,还是有不少兼容问题的，建议升级spark版本或者使用原生系统。

hudi入门4：CDH+Hudi环境集成

Hudi学习笔记

CHD6.2.0+Hudi 0.9集成

一、.DataSourceUtils$.PARTITIONING_COLUMNS_KEY()Ljava/lang/String异常

总结