首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
新人小可爱
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
分布式全站爬虫——以"搜狗电视剧"为例
... 凭什么说上限是10亿呢,我们在真正爬虫之前还需要一次调研,调研的时候可以把间隔调大,比如5000,这次抓取只是为了评估ID分布范围,比如第一段是[1, 10000],第二段是[1000000, 9000000],最后一段是[10000000000, 1009000000…
旋转矩阵
给你一幅由 N × N 矩阵表示的图像,其中每个像素的大小为 4 字节。请你设计一种算法,将图像旋转 90 度。 拿到题目,想了会,没思路。我发现了一些规律,但是不知道怎么用代码去实现。 好像发现规律了,试试如何用代码实现。题目要求不占用额外内存空间,应该就是: l[a], l…
7月总结
2019年下半年,也就是7月1日,我入职了拼多多。算起来到现在已经4周了,想记录下现在到这边来的感受。 先说下在这边的工作,爬虫只是一方面,数据下游还有很长的应用链,用同事的话说,爬虫是大动脉,挂了就完了。就目前我做的一个月来说,有开发爬虫,提供数据,也有改进一些业务代码。语言…
比你优秀的人不可怕,可怕的是比你优秀的人比你更努力
来到拼多多有半个月了,自己总结下来,有一句话就是标题说的:比你优秀的人不可怕,可怕的是比你优秀的人比你更努力。 这句话是我的领导经常挂在嘴边的,他是一个很厉害的人,之前做C++的,来到这边开始各种学习,JAVA、Python、Node,这些都是他自学的,因为他基础好。他常常跟我…
爬虫工程师面试题
给我留下了一个作业:抓取天猫超市上某些商品的可以配送省份信息。(当时做这个也花了很久,主要是需要解决PC端的登陆问题,后来通过h5接口) 就我简历上的东西问了下底层的东西:线程与进程,协程用的Linux底层的是什么技术,事件驱动,MySQL的索引底层是什么,查询怎么做的等等。(…
【面试高频问题】线程、进程、协程
需要先对 IO 的概念有一定的认识: IO在计算机中指Input/Output,也就是输入和输出。 并发:在操作系统中,某一时间段,几个程序在同一个CPU上运行,但在任意一个时间点上,只有一个程序在CPU上运行。 当有多个线程时,如果系统只有一个CPU,那么CPU不可能真正同时…
scrapy的errback
可以看到重试三次之后,抛出异常。今天讲的就是如何处理这个异常,也就是scrapy的errback。 errback函数能捕获的scrapy错误有:连接建立超时,DNS错误等。也就是日志中类似
cURL
cURL是一个利用URL语法在命令行下工作的文件传输工具,1997年首次发行。它支持文件上传和下载,所以是综合传输工具,但按传统,习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。 可以直接在终端运行,得到的就是html。 就可以直接转换为Python的r…
数据采集从入门到放弃【介绍】
花了两天时间研究了下,最终确定写一个关于爬虫教程,名字叫做数据采集从入门到放弃,会寄托在Github Pages上,使用mkdocs创作和管理。 本书会介绍我目前所知的所有关于爬虫的东西,更像是我的技能清单,仔细把其中所有的内容过一遍,目标是传播知识。 可能还会增加一些别的,主…
【杭州】爬虫工程师招聘
来到新公司,发现爬虫这块可以说是0。所有的东西都需要自己去搭建,之前在造数,什么代理池、部署框架、日志系统全是专门的运维来处理,自己根本就无需管理。现在就会自己去选择、做出方案,自己去搭建,成长会更快。 现在还要招聘一位爬虫工程师,来了基本上就和我一起开发爬虫,搭建爬虫框架、处…
下一页
个人成就
文章被点赞
3
文章被阅读
13,637
掘力值
350
关注了
0
关注者
6
收藏集
0
关注标签
0
加入于
2018-11-09