Member-only story
CVE-2025–30065: Apache Parquet Vulnerability is a Wake-Up Call for Data Pipelines
Cyber-AppSec
Follow
3 min read·Apr 5, 2025
Listen
Share
又一个核心开源库的关键漏洞被发现——这次轮到 Apache Parquet,其影响相当严重。如果你的团队正在处理大数据或云原生分析工作,这个问题昨天就该引起你的警惕。
(此处为原文章中的图片占位:Press enter or click to view image in full size)
发生了什么?
Apache Parquet 的 Java 库(广泛用于存储和处理大规模结构化数据)被发现存在一个**远程代码执行(RCE)**漏洞。该漏洞编号为 CVE-2025–30065,CVSS 评分为最高的 10.0。简而言之:如果你的系统正在处理来自不可信源的 Parquet 文件,可能在不知情的情况下执行了攻击者控制的代码。
问题的根源?parquet-avro 模块对 schema 定义的解析存在不当之处。攻击者可以构造特制的 Parquet 文件,一旦该文件被系统摄入,即可利用此漏洞执行任意代码。
为何问题严重
现实情况是——Parquet 无处不在。从 AWS S3 和 Azure Data Lake 中的数据湖,到运行在 Apache Spark 或 Flink 上的 ETL 管道,Parquet 已成为高效列式数据存储的首选格式。而现在,任何使用这些工具的用户,只要存在以下行为,都面临潜在风险:
- 摄入不可信的 Parquet 文件…… CSD0tFqvECLokhw9aBeRqrwTEtKAgZr3is/psY/zBV0s+VyJLJYbZplCbO0cd6atn9fX1PVRcgg1BYDMSjd3pa1sP/3y+s0rlEbFX9zM2H7cebilYT5dO73oNkcxkhDKOi5S1ctMbn0CYwjDdt84To8vqyFRmyZHUq8TJwNHDsg=