
获得徽章 0
赞了这篇文章
8月9日打卡,今天阅读了《字节跳动10万节点HDFS集群多机房架构演进之路》,这篇文章主要介绍了HDFS的背景以及现状,并且对动机、架构以及双机房与多机房的演进也有比较深刻的认知
评论
点赞
8月8日打卡,今天阅读了《Python爬虫教程 用Celery继续搞定分布式爬虫》,通过celery实现分布式爬虫爬取豆瓣读书,celery 官方定义为分布式任务队列,核心就是通过队列来实现跨线程或者跨终端进行作业分发。
评论
2
8月7日打卡,今天阅读了《使用Docker Swarm搭建分布式爬虫集群》,本文讲解了在爬虫开发过程中,遇到需要把爬虫部署在多个服务器上面的情况下的一些操作,从环境搭建到更新爬虫,代码部分较多,内容比较扎实
评论
1
8月6日打卡,今日阅读《带你入坑大数据(一) --- HDFS基础概念篇》,由于正在学习HDFS,就找了篇相近的,这篇文章主要写了HDFS三大组件,介绍还是比较详尽的。
评论
1
8月5日打卡,今天阅读了《Spark的Shuffle总结分析》,文中对shuffle原理进行了剖析,与课上所讲并无太大区别,也算是加深了对shuffle机制等的印象。
评论
1
8月4日打卡,今天阅读了《感受一下 Go 写爬虫 | Go主题月》,之前写爬虫用的是 python + scrapy,这篇文章使用 Go 写爬虫,介绍了 Go 的爬虫框架 Colly。
评论
1
赞了这篇文章
赞了这篇文章
8月2日打卡,今天阅读了《scrapy_redis分布式爬虫》,大致了解了scrapy_redis分布式爬虫的创建流程及启动和settings.py配置文件改造,博主通过先编写一个普通爬虫,在经过更改setting.py等操作,使其成为分布式爬虫,非常有趣。
评论
1
8月1日阅读打卡,今天阅读了《scrapy-redis实现分布》,redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的uel队列获取url,并把数据统一保存在同一个数据库里面.
评论
1