五年Python爬虫工程师,开发常用工具清单大放送

128 阅读5分钟

携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第25天,点击查看活动详情

写在前面

在编写爬虫的过程中,熟练的使用一些工具能高效的提高你爬虫代码编写的速度,本篇博客我们短暂性的休息下,给大家介绍一下我在编写爬虫代码编写的过程中,都使用了哪些工具,这些工具你可以酌情安装一下,没准在哪天,它们能帮助到你。

爬虫世界工具清单

谷歌浏览器

开发爬虫必备,浏览器我建议就使用这个吧,其他的也确实不怎么好使,浏览器上的工具,主要有下面这些。

谷歌开发者工具

没错,就是按 F12 出现的开发者工具,长成下图这个样子,这里面提供了非常多调试网页的工具,虽然我们不是前端工程师,但是这些工具必不可少。例如下面的ElementsNetwork,写爬虫的时候,哪一个每天不点上几十遍都不舒服。 Python爬虫入门教程 85-100 五年Python爬虫工程师,开发常用工具清单大放送 如果你使用的是其他浏览器,开发者工具基本类似,这个主要依赖编码者的习惯,有的人就喜欢用火狐浏览器,毕竟那个是中文~

谷歌浏览器插件/扩展

除了自带的开发者工具意外,有些浏览器的扩展我们是很有必要安装一下的 ,这里其实有个非常 6 的爬虫扩展,叫做Web Scraper 我们这里先不展开说,因为我后面要单独写一篇博客去描述它,我们先把一些常用的小扩展,给大家罗列一下。

第一个是我最常用的,叫做XPath helper,因为对于我来说,最常用的网页内容解析方式除了正则表达式以外,就是 xpath 解析方式了,安装它之后,你可以快速的在网页上面高亮显示某些选择区域。安装过程这里不细说,毕竟在国内去访问谷歌插件市场还是需要些特殊办法的。

当然,你可以直接访问国内的一些网站去下载,这种好的扩展一定有人提供的,例如,CSDN 下载频道搜索一下,就有~

第二个是Regex Matcher - 正则表达式匹配器,也就是在插件中调试正则表达式,一会我还会给大家介绍一些软件中,在本地有个类似的软件相较于这款插件更加优秀一些,不过插件免费,软件收费(有办法免费,你懂的)

第三个是油猴,这个就不在过多的介绍了,一入油猴,哇哦~浏览器都变的不一样了呢,因为名气比较大,稍微检索一下,好多东西可以学习。

第四个是EditThisCookie插件,对于一个爬虫爱好者,看到名字你就知道这是干什么的了,没错 EditThisCookie 是一款可以管理 Chrome 浏览器中 Cookies 的插件,你可以利用 EditThisCookie 添加,删除,编辑,搜索,锁定和屏蔽 Cookies。

一些下载插件的网站

  1. huajiakeji.com/
  2. www.cnplugins.com/

关于插件的安装,就不做过多的解释了,都是比较容易的~,即使不会,在上面两个网站上也可以找到很多安装的办法。

桌面工具类

第一款必然是RegexMatchTracer这款工具陪伴我多年,个人觉得是最好用的正则表达式匹配工具了,工具用得好,爬虫少烦恼~

下载地址:pan.baidu.com/s/1hqKKrre (来源互联网)

打开之后,长成下面这个样子,如果上述链接下载不了,给我留言,我发给你。

Python爬虫入门教程 85-100 五年Python爬虫工程师,开发常用工具清单大放送 第二款也是正则表达式匹配工具,叫做Regester,官方网址:deerchao.cn/tools/reges… ,你可以和上述软件同时使用一下,然后对比一下,选一个自己喜欢的。

第三款软件,叫做postman,开发调试必备软件,看一下官方简介,起飞~,一定要弄一个在自己的电脑本地,熟练使用之后,你会惊叹于自己的选择,这软件真棒!

postman 是一款强大网页调试工具的客户端,postman 为用户提供强大的 Web API & HTTP 请求调试功能。postman 能够发送任何类型的 HTTP 请求 (GET, HEAD, POST, PUT..),附带任何数量的参数+ headers,是一款非常实用的调试工具。

当然 postman 也有可替代的谷歌插件,有时候我会选择使用Talend API Tester,如果你想要学习一下,可以检索学习一下。

第四款软件,抓(he)包(xie)类的了,我推荐fiddler(HTTP 调试抓(he)包(xie)工具),你如果去使用Charles也是可以的,不过后者是收费的,这两款工具目的比较一致,咱们的爬虫系列教程都有所讲解,可以翻看前面的博客进行学习。

第五款软件,Snipaste,一款截图工具,肯定有人好奇,为啥我开发一个爬虫程序,还需要一个截图工具呢,这款截图工具截取图片之后,可以钉在桌面上,我们在编写爬虫的时候,经常要反复的核对参数,那么比对参数的时候截取一下屏幕,钉在屏幕上,会节省很多时间。

在线工具类

第一款,JSON 在线格式化,具体网站因为太多,不做推荐,直接百度即可,对于一个爬虫编写者,不随身收集几个 JSON 解析的网站或者了解一下 JSON 语法格式,这个实在说不过去。

同理,你还需要 JS 在线格式化工具,方便查阅某些被压缩过得 JS 代码

开发工具

这个没有什么要说的,VScode 或者 PyCharm(Community 版本免费,够用)

写在后面

本篇博客作为我们学习到 85 篇的一个小小的间歇时间,给大家提供一些开发者常用的工具清单,本篇博客未涉及手机端爬虫的一些工具,有兴趣的可以在评论区留言,大家一起补充起来。