首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大数据
jiuquguiyu
创建于2023-03-21
订阅专栏
大数据相关技术
等 1 人订阅
共16篇文章
创建于2023-03-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Flink 自定义数据源Connector
当我们要实现自定义数据源的时候,我们需要先实现DynamicTableSourceFactory, DynamicTableSinkFactory这两个工厂类,在工厂类里面去实现参数定义和数据源的创建,然后再数据源DynamicTableSource和DynamicTableSi...
Kafka面试题
高吞吐量、低延迟:kafka每秒可以处理几十万条消息,它的延迟最低只有几毫秒,每个topic可以分多个partition, consumer group 对partition进行consume操作。Producer :消息生产者,就是向 kafka broker 发消息的客户端。...
Spark2.3.2 Configuration 参数配置
http://spark.apache.org/docs/2.3.2/configuration.名称默认含义spark.streaming.backpressure.enabledfalse启用或禁用Spark Streaming的内部背压机制(自1.5起)。这使Spark S...
spark操作MySQL
spark读取MySQL就是通过最简单的jdbc实现读取和写入的,操作起来十分方便。但是在实际的项目当中,如果你有频繁的操作MySQL的话,建议最好加上连接池,不然速度会很慢。这里只是spark链接MySQL的入门,没有加上连接池的代码,后续会更新。package com.tes...
Spark读取HDFS或者AFS等文件系统文件
Spark读取文件有很多方法,我这里主要介绍一下读取非结构化的文件的两种方式,针对多文件读取,单文件读取也是一样的。String afsFilePath="afs://afs.yun.// String afsFilePath="afs://afs.yun.com/app/fil...
Hive字符串常用函数
Hive内部提供了很多操作字符串的相关函数,本文将对其中部分常用的函数进行介绍。下表为Hive内置的字符串函数,具体的用法可以参见本文的下半部分。返回类型函数名描述intascii(string str)返回str第一个字符串的数值stringbase64(binary bin)...
Flink面试题
Flink中的执行图一般是可以分为四类,按照生成顺序分别为:StreamGraph-> JobGraph-> ExecutionGraph->物理执行图。顾名思义,这里代表的是我们编写的流程序图。通过Stream API生成,这是执行图的最原始拓扑数据结构。StreamGraph...
Streaming 读取Kafka 保存OFFSET到kafka
老版本的kafka比较麻烦,streaming提供的只有checkpoint方法实现断点续读功能,但是当修改程序之后就没法平滑部署。因为checkpoint存储的是整个streaming启动类的序列化文件,当文件改动之后没法反序列化了。所以需要更好的方法来实现读取Kafka 实现...
spark读取hive
spark读取hive是最简单的,构造一个sparksession对象,直接执行SQL就得读取,然后直接insert就能写入。因为spark客户端配置了你的hive数据库的信息,所以能够直接读取hive数据库。....config("hive.exec.dynamic..conf...
spark程序依赖guava冲突报错
Exception in thread "main" java.lang.IllegalAccessError: tried to access method com.google.common.base.Stopwatch.<init>()V from class org.ap...
Flink on K8s 概述
Standalone模式需要提前确认好每个任务需要使用的资源,并在配置文件里面配置,每一个任务都是固定资源大小,申请多了浪费,少了怕出问题。Native模式不需要预先确定需要使用的资源数量,系统会实时根据任务需要自动去k8s集群申请能申请到的资源。Application模式资源隔...
flink on k8s 访问hive hadoop
本文适用于flink1.10-1.12版本。1.flink on k8s 的APP 模式下,读取hadoop需要先添加依赖jar包,我是添加flink-shaded-hadoop-2-uber-2.8.3-10.0.jar 这个jar包到flink的lib目录下,如果你使用的是其...
Spark运行架构
1.lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkContext,其中创建SparkContext的目的是为了准备Spark应用程序的运行环境。在Spark中由SparkContext负责和ClusterManage...
Spark的Dataframe(Dataset)转Json
Spark的Dataframe(Dataset)转Json,网上很多都说的太麻烦了,让你先转换成collect,然后按照不同的filed字段去转义。Dataset<String> stringDataset = Dataset<Row> rowDataset.就相当于你的每一行数...
Spark中转换jsonString数据为Dataset
SparkSession spark = SparkSession.builder().Dataset<Row> row = spark.sqlContext().read().一开始想多了,怎么都不好使,其实spark直接通过sqlContext读取是最方便的。
Kafka原理详解
kafka是一个分布式消息队列。具有高性能、持久化、多副本备份、横向扩展能力。生产者往队列里写消息,消费者从队列里取消息进行业务逻辑。一般在架构设计中起到解耦、削峰、异步处理的作用。kafka对外使用topic的概念,生产者往topic里写消息,消费者从读消息。为了做到水平扩展,...