获得徽章 0
面试一周没结果是不是凉了[敲打]
1
8月5日学习打卡,今日阅读《聊聊爬虫和IP代理》:了解了使用ip代理的方式发起请求有很不错的效果,加快了访问速度、保护隐私信息、提高下载速度、提高爬虫效率等。
评论
8月3日学习打卡,今日学习《Golang kafka简述和操作(sarama同步异步和消费组)》:通过阅读与实践本文的内容,初步体验了通过容器部署kafka的过程,并且使用client库完成kafka生产者和消费者消费数据的模型体验。
评论
8月2日学习打卡,今日学习《兄弟,用大白话告诉你小白都能看懂的Hadoop架构原理》:了解了Hadoop体系下的分布式文件系统HDFS的整体架构,包括其如何实现文件block的分布式存储,以及NameNode节点的高可用。
评论
8月1日学习打卡,今日学习《SparkSQL 在企业级数仓建设的优势》:文章通过分析字节在构建企业级数仓的背景下的技术选型,为读者介绍了以hive为首的适合用于长离线任务的组件以及以Click House为首适合用于实时性较高的OLAP场景的组件,最后引出Spark SQL在构建企业数仓架构方面的优良表现
评论
7月31日学习打卡,今日阅读《你需要的不是实时数仓 | 你需要的是一款强大的OLAP数据库(下)》:了解到目前还没有一个OLAP系统能够满足各种场景的查询需求。其本质原因是,没有一个系统能同时在数据量、性能、和灵活性三个方面做到完美,每个系统在设计时都需要在这三者间做出取舍。
评论
7月30日学习打卡,今日学习《基于Flink和规则引擎的实时风控解决方案》:本文讲解了线上业务需要伴随着风控系统,确保其运行更加稳定,并且例举了一种基于规则的风控系统是如何工作的,主要是通过将过去一定时间段的数据输入kafka,然后flink去消费数据,整合出每个用户的一些操作行为的统计,然后存储在分布式数据库或者redis中,提供给风控校验规则判断,如果触发相应指标,则触发后续惩罚规则。
展开
评论
7月29日学习打卡,今日学习《分布式系列第一弹:分布式一致性!》:通过阅读本文,了解了分布式存储的环境下,为了保持数据的一致性,提出的c2p和c3p协议,分析了二者的原理以及不足,同时也给出了c2p协议的优化版本tcc协议,通过将资源的锁定从资源层面转移到业务层面,虽然增加了业务的侵入,但是可以通过编写业务逻辑提升程序在分布式环境下的并发度。此外,也强调了分布式环境下的base理论,特别是给出了多种方案实现分布式架构的数据最终一致性(弱一致性而非单机数据库情景下的强一致性)。
展开
评论
7月28日学习打卡,今日阅读《字节跳动10万节点HDFS集群多机房架构演进之路》:通过阅读文章了解了HDFS在字节跳动大体量的存储环境需求下的演进和发展,从中可以总结出一些大数据应用的发展规律,开阔了视野。
评论
7月27日学习打卡:今日阅读《K8s 长什么样子,一文道清它的整体架构》,通过阅读文章,回顾了k8s的整体架构,总的来说可以将k8s集群节点分为master和worker两类,了解了master和worker节点内部的一些功能组件,发现这种主从的模式在大数据的体系之中十分的常见(因为需要满足分布式部署的需求)
评论
7月26日学习打卡,今日学习《Flink实时引擎项目实战》,本篇文章比较基础的罗列的流计算引擎Flink的整体架构,并且给出了一个使用Flink进行数据处理的小案例,通过消费kafka的数据,将经过Flink清洗的数据发往redis和hive,阅读之后大致了解了使用Flink的流程。
评论
下一页
个人成就
文章被点赞416
文章被阅读36,853
掘力值1,801
收藏集
7
关注标签
2
加入于