首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
bigdata
订阅
maolincool
更多收藏集
微信扫码分享
微信
新浪微博
QQ
7篇文章 · 0订阅
完成你的第一个Spark Streaming程序
其实 Spark Streaming 主要就是把算子用用,多敲代码的事儿。我当时觉得这个Spark Streaming好像要提的事情并不多呀,所以就直接跳过了。然后··· 虽然图很简陋,但是能把信息准确地表达就好。 第二行,我们setMaster(local[2]),这里要注意…
SparkSQL 在有赞的实践
有赞数据平台从2017年上半年开始,逐步使用 SparkSQL 替代 Hive 执行离线任务,目前 SparkSQL 每天的运行作业数量5000个,占离线作业数目的55%,消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换 Hive 过程中碰到的问…
Java 开发看的 Scala 入门
对于 Scala 语言其实很早有所耳闻,但没有真正进一步了解,只知道这门语言在大数据领域很火。正如前几年大数据开发的兴起,也着实让这门基于 JVM 的语言火了一把。由于近期开始参与公司的大数据项目,面对大数据量计算处理需求,基于目前自己 Java 的技术栈远远不够,不得不引入 …
Hello Spark! | Spark,从入门到精通
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的大数据处理引擎及轻量级的大数据处理统一平台。 当我们在谈 Spark 的时候可能是指一个 Spark 应用程序,替代 Ma…
小白学 Python 数据分析(15):数据可视化概述
从本篇开始,整个系列进入到第二部分,数据可视化。 可以看下下面这个动图,动图来源某云官网( https://data.aliyun.com/visual/datav )。 可以看到,这个动图非常的炫,那我们是不是学了数据可视化以后就能做出来这种效果。 emmmmmmmmmmmm…
大数据学习路线
上图是一个简化的大数据处理流程图,大数据处理的主要流程包括数据收集、数据存储、数据处理、数据应用等主要环节。下面我们逐一对各个环节所需要的技术栈进行讲解: 大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且…
Kafka 系列(一)—— Kafka 简介
ApacheKafka 是一个分布式的流处理平台。它具有以下特点: 高吞吐率,单 Broker 可以轻松处理数千个分区以及每秒百万级的消息量。 Kafka 的基本数据单元被称为 message(消息),为减少网络开销,提高效率,多个消息会被放入同一批次 (Batch) 中后再写…