首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
大数据
订阅
川了个川
更多收藏集
微信扫码分享
微信
新浪微博
QQ
15篇文章 · 0订阅
Spark学习——性能调优(一)
JVM调优(Java虚拟机):JVM相关的参数,通常情况下,如果你的硬件配置、基础的JVM的配置,都ok的话,JVM通常不会造成太严重的性能问题;反而更多的是,在troubleshooting中,JVM占了很重要的地位;JVM造成线上的spark作业的运行报错,甚至失败(比如O…
Cris 的 Spark Streaming 笔记
Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。 数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等…
大规模集群下的Hadoop高并发以及高性能架构原理总结【石杉的架构笔记】
这次我们总结的,主要是之前大数据的内容。这里笔者多说一句,笔者认为,大数据的技术、思想,对Java工程师来说也是非常重要的,Java工程师很有必要了解一些大数据的知识。 反过来,没有深厚的Java功底,大数据也好比是空中楼阁。举个例子,没有深厚的jdk源码功底,你甚至连Hado…
分享一些 Kafka 消费数据的小经验
之前写过一篇《从源码分析如何优雅的使用 Kafka 生产者》 ,有生产者自然也就有消费者。 就我的使用经验来说,大部分情况都是处于数据下游的消费者角色。也用 Kafka 消费过日均过亿的消息(不得不佩服 Kakfa 的设计),本文将借助我使用 Kakfa 消费数据的经验来聊聊如…
Spark的运行原理
spark的运行原理在大数据开发岗面试过程中是经常被问到的一个问题,我第一次被问到这个问题的时候有点摸不着头脑,这么大的一个问题我究竟应该怎样回答呢?是去描述一下spark的架构组成还是说一下底层的调用细节?后来查找了一些资料,看了一些书之后对这个问题有了一些理解,其实提这个问…
一文读懂kafka集群规划和调优
在我过去的工作经历中,经历过类似服务的有Redis集群,ElasticSearch集群,虽然整体改造后并不一定将成本降到最低,但是可以将服务的可用性和可靠性提高很多,而且根据业务场景以及使用方式来规划集群后会使得整体的边际成本呈递减状态。 笔者目前所处的团队所管理的kafka集…
Spark streaming消费Kafka的正确姿势
在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式…
教你如何迅速秒杀掉99%的海量数据处理面试题
1、海量日志数据,提取出某日访问百度次数最多的那个IP。 2、寻找热门查询,300万个查询字符串中统计最热门的10个查询。 3、上千万或上亿数据(有重复),统计其中出现次数最多的前N个数据。 4、海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10。
互联网面试必杀:如何保证消息中间件全链路数据100%不丢失(1)【石杉的架构笔记】
这篇文章,我们来聊聊在线上生产环境使用消息中间件技术的时候,从前到后的全链路到底如何保证数据不能丢失。 这个问题,在互联网公司面试的时候高频出现,而且也是非常现实的生产环境问题。 如果你的简历中写了自己熟悉MQ技术(RabbitMQ、RocketMQ、Kafka),而且在项目里…
美图大数据平台架构实践
本文系美图互联网技术沙龙第 11 期嘉宾分享内容,公众号后台回复「美图大数据平台」获取 PPT,点击阅读原文可观看完整视频回放。 如今大数据在各行业的应用越来越广泛:运营基于数据关注运营效果,产品基于数据分析关注转化率情况,开发基于数据衡量系统优化效果等。美图公司有美拍、美图秀…