首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
Hoult丶吴邪
掘友等级
大数据开发工程师
|
抖音
临泽羡鱼,不如退而结网
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
4
文章 4
沸点 0
赞
4
返回
|
搜索文章
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-开发Streaming处理数据 && 写入Kafka
1.SparkStreaming简介SparkStreaming从各种输入源中读取数据,并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Sql-涉及迭代数据的sql问题处理思路
在前面一篇里面,算法-一个经典sql题和一个Java算法题大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目,解决连续问题,本文继续总结关于连续...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-拷问灵魂的5个问题
1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作?②、顺序将每份5GB数据读入内存,使用quicksort算法排序。 ③...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark Join原理详解
数据分析中将两个数据集进行Join操作是很常见的场景。在Spark的物理计划阶段,Spark的JoinSelection类会根据Joinhints策略、Join表的大小、J...
1
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-RDD实操案例-http日志分析
1.在生产环境下,如何处理配置文件&&表的数据处理配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线...
1
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
机器学习-KNN算法原理 && Spark实现
不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
机器学习-KMeans算法原理 && Spark实现
不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-生产中遇到的10个致命问题
生产环境版本Hive:1.2.1,Spark:2.3.21.insertoverwritedirectory不会覆盖数据注意,生成结果是目录,生成目录里面的不同文件名不会被...
1
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-闭包的理解
1.从Scala中理解闭包闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。如下面这段匿名...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-共享变量之累加器和广播变量
Spark累加器与广播变量一、简介在Spark中,提供了两种类型的共享变量:累加器(accumulator)与广播变量(broadcastvariable):累加器:用来对...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-RDD的持久化和缓存
1.RDD缓存机制cache,persistSpark速度非常快的一个原因是RDD支持缓存。成功缓存后,如果之后的操作使用到了该数据集,则直接从缓存中获取。虽然缓存也有丢失...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
算法-Leetcode几个双指针问题
1.搜索插入位置https://leetcode-cn.com/problems/search-insert-position/2.搜索二维矩阵https://leetco...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
算法 - 链表操作题目套路
0.前言简单的题目,但是没有练习过或者背过,可能反而也写不出来,在面试中往往是在短时间内就写完,你没有时间画图,没有时间推演,这些都只能在脑子里快速完成,有时候拼了很久,觉...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
算法 - 如何从股票买卖中,获得最大收益
作为一名从副业中已赚取几个月工资的韭菜,显然对这类题目很有搞头,但是实际中往往不知道的是股票的未来价格,所以需要预测,而你的实盘实际上也会反过来影响股票,所以没人能完整预测...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
算法-回溯问题解决框架
1.回溯问题简介回溯问题,就是决策树的遍历过程,回溯问题需要有下面几个问题考虑路径:已经做出的选择,即从根节点到当前节点的路径选择列表:当前情况下还可以做哪些选择,即继续往...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Spark-一文理解常见RDD
1.五个基本PropertiesAlistofpartitionsAfunctionforcomputingeachsplitAlistofdependenciesonot...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-解决Windows下,开发环境常遇的几个问题
1.背景大数据开发的测试环境,很多人不以为然,其实重复的打包,上传,测试虽然每次时间大概也就几分钟,但是积累起了往往会花费很多的时间,但是一个完整的测试环境在生产环境下往往...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-Docker-使用Docker10分钟快速搭建大数据环境,Hadoop、Hive、Spark、Hue、Kafka、ElasticSearch.....
立个坑,教程后续补上,当然这不是最重要的,如果你仅仅想有个环境可以测试,只需要下面三步1.gitclonehttps://github.com/hulichao/docke...
0
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
大数据开发-从Scala到Akka并发编程
每瓶啤酒2元,3个空酒瓶或者5个瓶盖可换1瓶啤酒。100元最多可喝多少瓶啤酒?(不允许借啤酒) 为了加深对主从服务心跳检测机制(HeartBeat)的理解,模拟master...
1
评论
分享
Hoult丶吴邪
大数据开发工程师 @抖音
·
4年前
关注
算法-Java多线程协同 && 红包随机派发算法
对给定整型n, 开启n个线程(编号分别为1到n)。 实现代码逻辑,使得n个线程协同工作按顺序打印自然数列:1, 2, 3, ..., n。 思路:多个线程自旋等待是否任务轮...
1
2
分享
下一页
个人成就
文章被点赞
73
文章被阅读
54,193
掘力值
2,046
关注了
7
关注者
45
收藏集
2
关注标签
10
加入于
2018-07-08