大数据技术与应用实战

大数据架构

公众号（大数据技术与应用实战），分享一些大数据实战案例，欢迎关注

赞

41

|

搜索文章

git 常用命令总结

git log 查询一下提交的日志，找到相应的commit. git log 查询一下提交的日志，找到相应的commit. 别忘了最后那个 ^ ，表示指定commit id的前一个，这样会列出来指定commit id前一个id到最后所有的commit信息。然后我们就像用vi…

5年前
136
1
评论

flink教程--flink 1.11 使用sql将流式数据写入hive

上一篇介绍了使用sql将流式数据写入文件系统，这次我们来介绍下使用sql将文件写入hive,对于如果想写入已经存在的hive表，则至少需要添加以下两个属性. 写入hive底层还是和写入文件系统一样的，所以对于其他具体的配置参考上一篇. 下面我们讲解一下，如何使用java程序来构…

5年前
941
1
评论

flink 1.11 发布了，聊聊自己的工作和开源

flink 1.11 版本发布了.有幸给flink贡献了几个PR，第一次让名字出现在了apache的官方网站上。写篇随笔，聊聊自己的工作和开源，一直对于apache的项目，都是拿来用，这么多年，大数据的相关的乱七八糟的什么都在用，OLAP查询、存储、计算、平台、报表等等，我给…

5年前
344
1
评论

Flink教程--flink 1.11 使用sql将流式数据写入文件系统

flink提供了一个file system connector，可以使用DDL创建一个table，然后使用sql的方法写入数据，支持的写入格式包括json、csv、avro、parquet、orc。下面我们简单的介绍一下相关的概念和如何使用。在写入列格式（比如parquet…

5年前
2.8k
1
评论

Flink教程-flink 1.11 流式数据ORC格式写入file

在flink中，StreamingFileSink是一个很重要的把流式数据写入文件系统的sink，可以支持写入行格式(json,csv等)的数据，以及列格式（orc、parquet）的数据。 hive作为一个广泛的数据存储，而ORC作为hive经过特殊优化的列式存储格式，在hi…

5年前
3.1k
2
5

Flink实战教程-自定义函数之TableFunction

今天我们来聊聊flink sql中另外一种自定义函数-TableFuntion. TableFuntion 可以有0个、一个、多个输入参数，他的返回值可以是任意行，每行可以有多列数据. 实现自定义TableFunction需要继承TableFunction类，然后定义一个pub…

5年前
958
1
评论

Flink实战教程-自定义函数之标量函数

flink本身给我们提供了大量的内置函数，已经能满足我们绝大部分的需求，但是如果确实是碰到了一些特殊的场景，无法满足我们的需求的时候，我们可以自定义函数来解决，今天我们主要讲一下最简单的自定义函数-ScalarFunction。标量函数的入参可以是0个、1个或者多个值，然后返…

5年前
210
1
评论

flink实战教程-集群的部署

这种模式我们一般是在用IDE调试程序的时候用到,当我们在本地用IDE开发程序的时候，执行main方法，flink会在本地启动一个包含jobmanager和taskmanager的进程的minicluster，程序运行完成之后，这个cluster进程退出。这种模式就是直接在物理…

5年前
932
1
评论

大数据流处理-我为什么选择Apache Flink

随着这几年大数据技术的迅猛发展，人们对于处理数据的要求也越来越高，由最早的MapReduce，到后来的hive、再到后来的spark，为了获取更快、更及时的结果，计算模型也在由以前的T+1的离线数据慢慢向流处理转变，比如每年双十一阿里的实时大屏，要求秒级的输出结果；再比如当我们…

5年前
2.2k
1
评论

聊聊AWK命令的那些事

作为一个大数据开发，先来一个我比较喜欢的面试题。对于下面的nginx日志access.log，用脚本分析出访问ip的Top 10。其实这个题不难，但是考察了几个常用的shell 命令，awk、uniq、sort、head，我觉得对于做大数据开发、运维、数仓等来说都是应该必备…

5年前
792
1
评论

个人成就

文章被点赞 62

文章被阅读 75,892

掘力值 1,432

加入于

2020-05-30