Spark - 雅轩的收藏集 - 掘金

Spark

更多收藏集

21篇文章 · 0订阅

Apache Kyuubi 助力 CDH 解锁 Spark SQL

Apache Kyuubi(Incubating)（下文简称Kyuubi）是⼀个构建在Spark SQL之上的企业级JDBC网关，兼容HiveServer2通信协议，提供高可用、多租户能力。

网易数帆
4年前
1.2k
1
评论

Apache Kyuubi 助力 CDH 解锁 Spark SQL

Flink在饿了么的应用与实践

来源于多个数据源的数据写到 kafka 里，计算引擎主要是 Storm , Spark 和 Flink，计算引擎出来的结果数据再落地到各种存储上。目前 Storm 任务大概有100多个，Spark任务有50个左右，Flink暂时还比较少。目前我们集群规模每天数据量有60TB…

Ververica
6年前
3.3k
7
评论

Spark SQL五大关联策略

1、五种连接策略选择连接策略的核心原则是尽量避免shuffle和sort的操作，因为这些操作性能开销很大，比较吃资源且耗时，所以首选的连接策略是不需要shuffle和sort的hash连接策略。 ◦

京东云开发者
1年前
542
点赞
评论

spark工程化项目-Java

spark_demo spark工程，依据Java项目常见三层架构模式，分为： controller：控制层 service：服务层 dao：持久层 application：应用程序层 common：

saberbin
1年前
300
点赞
评论

spark工程化项目-Java

深度对比Apache CarbonData、Hudi和Open Delta三大开源数据湖方案

我们已经看到，人们更热衷于高效可靠的解决方案，拥有为数据湖提供应对突变和事务处理的能力。在数据湖中，用户基于一组数据生成报告是非常常见的。随着各种类型的数据汇入数据湖，数据的状态不会一层不变。需要改变各种数据的用例包括随时间变化的时序数据、延迟到达的时延数据、平衡实时可用性和回…

华为云开发者联盟
5年前
2.9k
4
评论

大数据系列之：读取parquet文件统计数据量

一、Spark读取parquet文件统计数据量首先，创建一个 SparkSession 对象：然后，使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame：最

勇敢飞飞不怕困难
1年前
374
点赞
评论

spark-submit 参数详解

cluster：Driver端在Yarn分配的ApplicationMaster上启动一个Driver。与其他Excute交互 JARS：你程序依赖的jar包。如果有多个用,分隔个别作业需要单独设置spark-conf参数，就在这里加。有10个就--conf十次程序所依赖的…

XinXing
4年前
1.7k
2
评论

spark sql写入到Clickhouse

加入依赖Demo

XinXing
4年前
2.8k
2
评论

SparkSQL外部数据源读写Oracle

SparkSQL外部数据源读写Oracle SparkSQL外部数据源读写Oracle SparkSQL外部数据源读写Oracle

XinXing
4年前
968
1
评论

spark调用HTTP请求并返回数据落地到数仓(or数据库)

spark调用HTTP请求并返回数据落地到数据库 spark调用HTTP请求并返回数据落地到数据库 spark调用HTTP请求并返回数据落地到数据库

XinXing
4年前
3.3k
2
评论