羽祀玄天夜微凉

获得徽章 0

动态

搜索文章

羽祀玄天夜微凉

3年前
举报
8月9日打卡，今天阅读了《字节跳动10万节点HDFS集群多机房架构演进之路》,这篇文章主要介绍了HDFS的背景以及现状,并且对动机、架构以及双机房与多机房的演进也有比较深刻的认知

字节跳动10万节点HDFS集群多机房架构演进之路

www.juejin.cn

好文推荐

分享

评论

点赞
羽祀玄天夜微凉

3年前
举报
8月8日打卡，今天阅读了《Python爬虫教程用Celery继续搞定分布式爬虫》，通过celery实现分布式爬虫爬取豆瓣读书，celery 官方定义为分布式任务队列，核心就是通过队列来实现跨线程或者跨终端进行作业分发。

Python爬虫教程用Celery继续搞定分布式爬虫

juejin.cn

好文推荐

赞过

分享

评论

2
羽祀玄天夜微凉

3年前
举报
8月7日打卡，今天阅读了《使用Docker Swarm搭建分布式爬虫集群》，本文讲解了在爬虫开发过程中，遇到需要把爬虫部署在多个服务器上面的情况下的一些操作，从环境搭建到更新爬虫，代码部分较多，内容比较扎实

使用Docker Swarm搭建分布式爬虫集群

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
8月6日打卡，今日阅读《带你入坑大数据（一） --- HDFS基础概念篇》，由于正在学习HDFS，就找了篇相近的，这篇文章主要写了HDFS三大组件，介绍还是比较详尽的。

带你入坑大数据（一） --- HDFS基础概念篇

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
8月5日打卡，今天阅读了《Spark的Shuffle总结分析》，文中对shuffle原理进行了剖析，与课上所讲并无太大区别，也算是加深了对shuffle机制等的印象。

Spark的Shuffle总结分析

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
8月4日打卡，今天阅读了《感受一下 Go 写爬虫 | Go主题月》,之前写爬虫用的是 python + scrapy，这篇文章使用 Go 写爬虫，介绍了 Go 的爬虫框架 Colly。

感受一下 Go 写爬虫 | Go主题月

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
8月2日打卡，今天阅读了《scrapy_redis分布式爬虫》，大致了解了scrapy_redis分布式爬虫的创建流程及启动和settings.py配置文件改造，博主通过先编写一个普通爬虫，在经过更改setting.py等操作，使其成为分布式爬虫，非常有趣。

scrapy_redis分布式爬虫

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
8月1日阅读打卡，今天阅读了《scrapy-redis实现分布》,redis维持一个共同的url队列，各个不同机器上的爬虫程序获取到的url都保存在redis的url队列，各个爬虫都从redis的uel队列获取url，并把数据统一保存在同一个数据库里面.

scrapy-redis实现分布式爬虫

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
7月31日打卡，今天阅读了《【2022 年】崔庆才 Python3 爬虫教程 - 什么是 Ajax？》，在这篇文章中，简单了解了 Ajax 请求的基本原理和带来的页面加载效果，实际上就是新建了 XMLHttpRequest 对象，然后调用 onreadystatechange 属性设置了监听，然后调用 open 和 send 方法向服务器发送了请求。

【2022 年】崔庆才 Python3 爬虫教程 - 什么是 Ajax？

juejin.cn

好文推荐

赞过

分享

评论

1
羽祀玄天夜微凉

3年前
举报
7月30日打卡，今天阅读了《如何简单高效地部署和监控分布式爬虫项目》，了解到配置Scrapy 爬虫项目的几个不同阶段，最简单的是一台开发主机，能够直接通过浏览器部署和运行 Scrapy 爬虫项目，另外，它提到了定时爬取内容，可以追溯历史记录，非常好用。

如何简单高效地部署和监控分布式爬虫项目

juejin.cn

好文推荐

赞过

分享

评论

1

个人成就

文章被点赞 24

文章被阅读 2,792

加入于

2022-07-06