大数据干饭人

大数据工程师

赞

49

|

搜索文章

赞

文章( 49 ) 沸点( 0 )

python基础语法看一篇就够了，全网最全python语法笔记汇总

前言 Python 是一种代表简单思想的语言，其语法相对简单，很容易上手。不过，如果就此小视 Python 语法的精妙和深邃，那就大错特错了。如能在实战中融会贯通、灵活使用，必将使代码更为精炼、高效

python大志
4年前
10k
19
4

SparkStreaming 整合 Kafka 实现精准一次消费

简介 SparkStreaming消费Kafka实现精确一次性消费. 保证消息不丢失、不重复消费. 消息处理的语义 At Least Once (至少处理一次): 消息至少被处理一次可以保证数据不

李白的手机
4年前
2.9k
12
评论

Apache Flink的快速开始

1. Flink环境准备单机模式使用FLink非常简单，只需要下载Flink压缩包，然后执行./bin/start-cluster.sh启动服务。在本地http://localhost:8081/就可以打开WebUI的界面。 2. 测试数据库准备作为ETL任务，我们需要指定…

uhan6
5年前
1.2k
2
评论

Apache Flink的快速开始

Spark-submit执行流程，了解一下

我们在进行Spark任务提交时，会使用“spark-submit -class .....”样式的命令来提交任务，该命令为Spark目录下的shell脚本。它的作用是查询spark-home，调用spark-class命令。检测执行模式（class or submit）构建c…

华为云开发者联盟
5年前
1.2k
3
评论

Linux生产环境上，最常用的一套“AWK“技巧

hi，大家好，小姐姐味道最有用系列完结。敢用自己的名字做软件名字的，都有非常强大的自信。比如，垠语言什么的。 awk的命名得自于它的三个创始人姓别的首字母，都是80来岁的老爷爷了。当然也有四个人的组合：流行的GoF设计模式。但对于我这游戏爱好者来说，想到的竟然是三位一体，果然…

小姐姐味道
6年前
11k
106
1

第一次写优化相关的文章，先简单谈谈关于优化看法。首先一点是很多优化设计不管是缓存、索引还是排序等等，其核心的思想就是减少IO。然后在分布式场景下效率还遵循木桶效应，任务是并行执行的，最后执行完的任务决定了整个任务的耗时。所以均衡各个任务节点的任务是在分布式场景下的重要优化思路。…

lshua
5年前
1.5k
8
评论

阿里云产品之数据中台架构

1. 场景描述 2. 解决方案数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。数据传输致力于在公共云、混合云场景下…

软件老王
5年前
3.0k
4
评论

Scala implicit 隐式转换安全驾驶指南

这篇短文将结合实例对隐式转换的各种场景进行解释和总结，希望看完的人能够安全驶过隐式转换这个大坑。隐式转换函数隐式转换函数有两种作用场景。1转换为期望类型：就是指一旦编译器看到X，但需要Y，就会检查从X

Liam8
6年前
1.8k
4
评论

从0开始学大数据-Hive性能优化篇

在工作中使用hive比较多，也写了很多HiveQL。这里从三个方面对 Hive 常用的一些性能优化进行了总结。分区表是在某一个或者几个维度上对数据进行分类存储，一个分区对应一个目录。如果筛选条件里有分区字段，那么 Hive 只需要遍历对应分区目录下的文件即可，不需要遍历全局…

dxer0730
6年前
2.8k
12
评论

从0开始学大数据-Hive性能优化篇

加入于

2018-08-31