听说你想面对监狱编程,你,够格吗?

335 阅读5分钟

先说明一下,我的这篇文章没有太多的技术含量,最多只有一些的技术总结,剩下的是我这几个月算是自身经历吧,但是没跑题啊,还是跟爬虫技术的先关的,不喜欢可以关了哈,来都来了就看看呗,没准可以帮助你呢,哈哈谢谢你~

在这里插入图片描述

正文Action

好了废话说的也不少了接下来给就谈谈真的专业知识,

爬虫

,相信看过我的文章的人都知道,我写爬虫的时候,有时候会写这个东西,因为我怕有的人学了爬虫回去搞一些事情出来,在这里算是善意的提醒吧

在这里插入图片描述

所以面对监狱编程,你真的够格吗?? 干这一行的都知道这几年有很多个正正经经的案例,就是哪个哪个公司程序员写了爬虫代码,最后导致爬进了监狱,这些案例是真实存在的,虽然已经过去很久但只要是一提起来还是觉得非常刺激的 那我们来谈谈今天的主题,你真的能爬进监狱吗?我想这个问题,没有正常的回答,你能说你进不去吗,万一呢,你把人家服务器给爬崩了,嗯你就是技术这么好,他们的服务器配置就是这么低这么烂 但是你真的能进去吗?我相信你们是因为我文章的标题进来的,大多数可能出于好奇,甚至都不懂爬虫,心理想:我编个程,怎么就进监狱了,有很多看博客的都是这个心里 那接下来我们从技术分析一下,你至少要写成什么样的爬虫,才有可能爬进监狱 

先从最基础的程序设计说起:

  1. requests请求
  2. User-Agent伪装
  3. re/xpath解析数据
  4. mysql/mongo存储

有了这些,恭喜你有了半只脚踏进了监狱,哈哈哈放心早着呢

进阶:

  1. Selenium+Chrome/Firefox
  2. 多线程/多进程爬虫
  3. Proxies代理
  4. 控制台抓包
  5. js逆向/js分析改写
  6. ajax请求破解
  7. 分布式爬虫

进阶已完成,我们更近了一步

高级进阶:

  1. scrapy框架
  2. 周期性计划任务
  3. 机器视觉与tesseract
  4. Fiddler抓包工具
  5. 移动端app数据抓取

高级进阶后,已经没什么可以阻挡你的脚步了,兄弟,Prison离你更近了哈哈哈

真的吗?
当然不可能,只会这点只能说你很厉害了,真正足以让你进到监狱的是Robots协议,还有一些不可控制的东西,就像是我们上面说的,你把人家服务器搞崩了,网站也搞的运营不起来了,以及你把人家的私有的数据爬下来卖给了他人等等,这些如果你违反了,你必然会受到惩罚,所以,不要不要不要去做死,如果你觉得你足够幸运,我祝你Bon voyage,Safe and sound

敲黑板划重点:

接下来给大家总结了一下我今年面试的题:

1、Python中__init__ 和__new__的区别
2、整个爬虫的工作流程(如何运作)

3、http的响应码(最好是记住200到500状态每个的前三个)
4、进程、线程、协程的区别
5、多线程和多进程介绍一下
6、如何实现多进程和多线程

7、python并发和并行
8、redis数据库的事务
9、redis的五大数据类型
10、redis的有序集合
11、mysql 数据库的索引

12、mysql数据库中如何给用户权限
13、Linux查看磁盘命令以及磁盘占用命令
14、Linux查看内容使用情况命令
15、命令行如何实现对一个文件的去重
16、Python的内存管理机制

17、Python的可变数据类型和不可变数据类型
18、Python 中类方法、类实例方法、静态方法有何区别?
19、map 函数
20、解释一下什么是闭包?
21、函数装饰器的理解
22、Python生成器的原理

23、Python 的魔法方法
24、正则里match 与search 的区别?
25、url 的形式?
26、varchar 与char 的区别?
27、常见的反爬虫和应对方法?
28、验证码的解决?

29、描述下scrapy 框架运行的机制?
30、scrapy五大核心组件介绍一下,分别是做什么用
31、怎么实现栈
32、深拷贝,浅拷贝的区别?

33、Linux查看某个进程占用的端口号
34、有一个数组,取出第三大的数字,要求时间复杂度为O(n),请问如何实现

35、目标:对指定网站进行数据抓取
要求:撰写爬虫策略调研报告
1、列明遇到困难,解决问题方法、策略或建议
2、时间1小时。

内容:
网址:www.zcygov.cn,该网站浙江省和重庆市商品信息(可以测试某类商品)。
抓取信息如下:

在这里插入图片描述

36、这个是一家公司给我的爬虫任务,算是一个测试吧
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

下面的是一家公司的笔试题,但是我没做,因为我是实习生,肯定是做的话得费点力

37、输入一哥字符串,返回字符串倒序后的结果
38、写一个函数,该函数用来判断一个字符串是否为IP地址

39、HTTP协议的请求报文共有哪几个组成部分
40、请列出常见的排序算法都有什么,以及它们的平均时间复杂度都是多少
41、现有一个大文件demo.txt,至少超过10G,在内存有限的情况下(低于2G),判断目标字符串”csdn”在文件中出现的次数

郑重声明:如有他人爬取任何信息造成违法行为情况下,与本作者无关,本作者不承担任何责任

调皮一下,但是你们也千万别去做那些事情,会负法律责任的

近期有很多朋友通过私信咨询有关Python学习问题。为便于交流,点击蓝色自己加入讨论解答资源基地