大数据

大数据

大数据

大数据相关技术

等 1 人订阅共16篇文章创建于2023-03-21

Flink 自定义数据源Connector

当我们要实现自定义数据源的时候，我们需要先实现DynamicTableSourceFactory, DynamicTableSinkFactory这两个工厂类，在工厂类里面去实现参数定义和数据源的创建，然后再数据源DynamicTableSource和DynamicTableSi...

2年前
1.4k
2
评论

高吞吐量、低延迟：kafka每秒可以处理几十万条消息，它的延迟最低只有几毫秒，每个topic可以分多个partition, consumer group 对partition进行consume操作。Producer ：消息生产者，就是向 kafka broker 发消息的客户端。...

2年前
85
1
评论

Spark2.3.2 Configuration 参数配置

http://spark.apache.org/docs/2.3.2/configuration.名称默认含义spark.streaming.backpressure.enabledfalse启用或禁用Spark Streaming的内部背压机制（自1.5起）。这使Spark S...

2年前
509
点赞
评论

spark操作MySQL

spark读取MySQL就是通过最简单的jdbc实现读取和写入的，操作起来十分方便。但是在实际的项目当中，如果你有频繁的操作MySQL的话，建议最好加上连接池，不然速度会很慢。这里只是spark链接MySQL的入门，没有加上连接池的代码，后续会更新。package com.tes...

2年前
327
点赞
评论

Spark读取HDFS或者AFS等文件系统文件

Spark读取文件有很多方法，我这里主要介绍一下读取非结构化的文件的两种方式，针对多文件读取，单文件读取也是一样的。String afsFilePath="afs://afs.yun.// String afsFilePath="afs://afs.yun.com/app/fil...

2年前
585
点赞
评论

Hive字符串常用函数

Hive内部提供了很多操作字符串的相关函数，本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数，具体的用法可以参见本文的下半部分。返回类型函数名描述intascii(string str)返回str第一个字符串的数值stringbase64(binary bin)...

2年前
366
点赞
评论

Flink中的执行图一般是可以分为四类，按照生成顺序分别为：StreamGraph-> JobGraph-> ExecutionGraph->物理执行图。顾名思义，这里代表的是我们编写的流程序图。通过Stream API生成，这是执行图的最原始拓扑数据结构。StreamGraph...

2年前
393
1
评论

Streaming 读取Kafka 保存OFFSET到kafka

老版本的kafka比较麻烦，streaming提供的只有checkpoint方法实现断点续读功能，但是当修改程序之后就没法平滑部署。因为checkpoint存储的是整个streaming启动类的序列化文件，当文件改动之后没法反序列化了。所以需要更好的方法来实现读取Kafka 实现...

2年前
980
2
评论

spark读取hive

spark读取hive是最简单的，构造一个sparksession对象，直接执行SQL就得读取，然后直接insert就能写入。因为spark客户端配置了你的hive数据库的信息，所以能够直接读取hive数据库。....config("hive.exec.dynamic..conf...

2年前
438
点赞
评论

spark程序依赖guava冲突报错

Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.ap...

2年前
491
点赞
评论

Flink on K8s 概述

Standalone模式需要提前确认好每个任务需要使用的资源，并在配置文件里面配置，每一个任务都是固定资源大小，申请多了浪费，少了怕出问题。Native模式不需要预先确定需要使用的资源数量，系统会实时根据任务需要自动去k8s集群申请能申请到的资源。Application模式资源隔...

2年前
507
1
评论

flink on k8s 访问hive hadoop

本文适用于flink1.10-1.12版本。1.flink on k8s 的APP 模式下，读取hadoop需要先添加依赖jar包，我是添加flink-shaded-hadoop-2-uber-2.8.3-10.0.jar 这个jar包到flink的lib目录下，如果你使用的是其...

2年前
397
1
评论

Spark运行架构

1.lDriver：Spark中的Driver即运行上述Application的main()函数并且创建SparkContext，其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManage...

2年前
183
点赞
评论

Spark的Dataframe（Dataset）转Json

Spark的Dataframe（Dataset）转Json,网上很多都说的太麻烦了，让你先转换成collect，然后按照不同的filed字段去转义。Dataset<String> stringDataset = Dataset<Row> rowDataset.就相当于你的每一行数...

2年前
216
点赞
评论

Spark中转换jsonString数据为Dataset

SparkSession spark = SparkSession.builder().Dataset<Row> row = spark.sqlContext().read().一开始想多了，怎么都不好使，其实spark直接通过sqlContext读取是最方便的。

2年前
59
点赞
评论

Kafka原理详解

kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息，消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念，生产者往topic里写消息，消费者从读消息。为了做到水平扩展，...

2年前
62
点赞
评论