
获得徽章 0
- 8月9日打卡,今天阅读了《字节跳动10万节点HDFS集群多机房架构演进之路》,这篇文章主要介绍了HDFS的背景以及现状,并且对动机、架构以及双机房与多机房的演进也有比较深刻的认知评论点赞
- 8月8日打卡,今天阅读了《Python爬虫教程 用Celery继续搞定分布式爬虫》,通过celery实现分布式爬虫爬取豆瓣读书,celery 官方定义为分布式任务队列,核心就是通过队列来实现跨线程或者跨终端进行作业分发。赞过评论2
- 8月7日打卡,今天阅读了《使用Docker Swarm搭建分布式爬虫集群》,本文讲解了在爬虫开发过程中,遇到需要把爬虫部署在多个服务器上面的情况下的一些操作,从环境搭建到更新爬虫,代码部分较多,内容比较扎实赞过评论1
- 8月6日打卡,今日阅读《带你入坑大数据(一) --- HDFS基础概念篇》,由于正在学习HDFS,就找了篇相近的,这篇文章主要写了HDFS三大组件,介绍还是比较详尽的。赞过评论1
- 8月5日打卡,今天阅读了《Spark的Shuffle总结分析》,文中对shuffle原理进行了剖析,与课上所讲并无太大区别,也算是加深了对shuffle机制等的印象。赞过评论1
- 8月4日打卡,今天阅读了《感受一下 Go 写爬虫 | Go主题月》,之前写爬虫用的是 python + scrapy,这篇文章使用 Go 写爬虫,介绍了 Go 的爬虫框架 Colly。赞过评论1
- 8月2日打卡,今天阅读了《scrapy_redis分布式爬虫》,大致了解了scrapy_redis分布式爬虫的创建流程及启动和settings.py配置文件改造,博主通过先编写一个普通爬虫,在经过更改setting.py等操作,使其成为分布式爬虫,非常有趣。赞过评论1
- 8月1日阅读打卡,今天阅读了《scrapy-redis实现分布》,redis维持一个共同的url队列,各个不同机器上的爬虫程序获取到的url都保存在redis的url队列,各个爬虫都从redis的uel队列获取url,并把数据统一保存在同一个数据库里面.赞过评论1
- 7月31日打卡,今天阅读了《【2022 年】崔庆才 Python3 爬虫教程 - 什么是 Ajax?》,在这篇文章中,简单了解了 Ajax 请求的基本原理和带来的页面加载效果,实际上就是新建了 XMLHttpRequest 对象,然后调用 onreadystatechange 属性设置了监听,然后调用 open 和 send 方法向服务器发送了请求。赞过评论1
- 7月30日打卡,今天阅读了《如何简单高效地部署和监控分布式爬虫项目》,了解到配置Scrapy 爬虫项目的几个不同阶段,最简单的是一台开发主机,能够直接通过浏览器部署和运行 Scrapy 爬虫项目,另外,它提到了定时爬取内容,可以追溯历史记录,非常好用。赞过评论1