可能有朋友不知道贝壳采集器,我再介绍一下:贝壳采集器 一款谷歌插件,可以方便的抓取网页上的内容:文字、链接、图片、表格等,而无需写一行代码。
贝壳采集器有如下优点——
免费
不受操作系统限制,只要安装Chrome浏览器或者Chrome内核浏览器即可运行,比如360浏览器、QQ浏览器 操作简单,易上手。(很多没有技术背景的同学,都可以快速学会) 功能强大:不仅可以抓静态网页,对于js动态加载的数据,也很容易抓取 自动识别:绝大部分网站页面主体内容都能自动识别出来 根据已经测试的经历,下列类型网站均可抓取—— 贝壳、京东、美团、链家、赶集等 微信公众号、简书、国美、知乎、博客等 淘宝、阿里巴巴、苏宁易购、网易严选等 可以在浏览器查看到的数据,基本都可抓取。
一、常见问题
1、下载了贝壳采集器插件安装包,但是不会安装怎么办? 如果你对插件的使用及安装没有接触过,一头雾水,没关系,可以从链接: www.728data.com/zh-cn/advan… 比如谷歌下载好以后,将此插件安装包,拖到chrome://extensions/页面,按照提示安装即可。
2、贝壳采集器安装好后,如何使用呢? 有的同学,贝壳采集器安装成功,然后在浏览器右侧会看到安装好的贝壳采集器图标,然后鼠标左键 - -> 点击登录 - ->跳转登录界面,登录后就可以在首页输入想采集的网址,点击贝壳采集按钮就可以配置想采集的网址了。如下图所示:
提示:!! 每次如果重新手动识别列表的话,都需要重新选择下页面类型:手动识别列表;另外使用方式是点击页面中列表下的两个不同单元的元素就可以识别出列表了;
4、数据有好多页,但实际为什么只抓取第一页就结束了? 你可能配置完成后忘记查看分页类型的状态栏是否识别成功了 ,一定要在每次配置完后看看下一页是否识别成功,正常识别成功后”下一页”按钮会会变色,分页类型栏会显示自动识别分页
- ->修改分页类型为:滚动加载(点击)-->点击页面‘阅读更多’按钮 这样就能正常采集了,操作流程如下图:
8.遇到验证码反爬怎么办? 贝壳采集本身是替代用户做重复性的工作,所以本身就是真实的浏览器环境,我们测试了好多网站,出现验证码的几率很小,即使出了验证码,贝壳采集器也会智能识别出来,暂停采集任务,然后以弹窗的形式提示您,等您手工打码之后在任务运行监控页面再次点击开始采集任务就行了
9.我想采集页面的一个字段怎么办? 很简单,你只需要点击想采集的位置就行了,然后会给是信息 ,比如点击到选电影就会出现这样的提示框,如果你像采集整列,那么选中提取列表按钮;如果你像提取text、class、href全部信息,那么你可以选中提取全部信息,也可以挨个选中,光标放到图标还可以查看识别出来的内容。