首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
福尔蘑菇
掘友等级
大数据开发工程师
|
深圳天源迪科
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
8
文章 7
沸点 1
赞
8
返回
|
搜索文章
赞
文章( 7 )
沸点( 1 )
Scala入门教程 (一)
说的正式点,Scala是一种多范式的编程语言,其将面向对象编程与函数式编程的特性结合了起来。并且Scala同Java一样都运行在Java虚拟机之上,经过编译之后都生成的是class字节码文件,所以scala同样具有跨平台的特性,可以做到一次编写,到处运行。 说的通俗点,Scal…
Spark读hive text表之非shuffle方式增大并行度
正常情况下,一个spark task要处理一个partition即128M的数据,因处理过程较耗时而成为任务瓶颈。 大的方向是进行任务拆分,增大并行度。 结论:测试发现,虽然增大了业务处理的并行度,但shuffle操作的开销比较大,因此整体的耗时没有明显减少。 用以实现spar…
详解MapReduce中的五大编程模型
我们上一节讲了关于 MapReduce 中的应用场景和架构分析,最后还使用了一个CountWord的Demo来进行演示,关于MapReduce的具体操作。如果还不了解的朋友可以看看上篇文章:初识MapReduce的应用场景(附JAVA和Python代码) 接下来,我们会讲解关于…
亿级流量系统架构之如何支撑百亿级数据的存储与计算【石杉的架构笔记】
首先简单介绍一下项目背景,公司对合作商家提供一个付费级产品,这个商业产品背后涉及到数百人的研发团队协作开发,包括各种业务系统来提供很多强大的业务功能,同时在整个平台中包含了一个至关重要的核心数据产品,这个数据产品的定位是全方位支持用户的业务经营和快速决策。 这篇文章就聊聊这个数…
亿级流量架构系列专栏总结【石杉的架构笔记】
很多同学反映,这周的文章很烧脑,看的云里雾里。架构图太复杂,涉及的技术太多,而且各种自研的技术,很多朋友笑称:真是傲娇,一言不合就自研! 的确,如果没有这种亿级流量的线上业务场景的淬炼,确实很难看透架构背后的精髓。 况且,文字本来承载的信息量有限,很多细节也不可能通过文字表达的…
懵X排序算法:快速排序
分别对数组左右两边的值做如上操作后即可完成快速排序。 平均时间复杂度: O(nlogn) 。 最坏时间复杂度: O(n^2) ,这种情况发生在排序数组为正序或逆序的时候。 稳定性: 不稳定。
《HBase 不睡觉》第五章 - HBase 内部探险
Namespace(表命名空间):将多个表分到一个组进行统一管理。 Table(表):一个表由一个或者多个列族组成;数据属性比如:超时时间(TTL),压缩算法(COMPRESSION)等,都在列族的定义中定义;定义完列族后表是空的,只有添加了行,表才有数据。 Row(行):一个…
关注了
14
关注者
1
收藏集
1
关注标签
96
加入于
2019-05-29