首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
爬虫
订阅
CRao
更多收藏集
微信扫码分享
微信
新浪微博
QQ
11篇文章 · 0订阅
Java网络爬虫实操(9)
request(Request... requests) 支持传入多个参数 如果下载的文件比较大,要耐心等待程序运行完。 大家有兴趣可以去试试下载word文档等资源。总之,通过框架NetDiscovery下载资源就是这么方便。当然,FileDownloader和FileDown…
Java网络爬虫实操(6)
本篇文章尝试用注解的方式实现一下,大家看看是否好一点。 总之,一个好的框架的目标是希望能用的前提下,用的更好、更爽。好像汽车品牌一样,虽然都是四个轮子的,几万的也有,几十万的也很多。 有兴趣的小伙伴可以关注这个爬虫框架NetDiscovery,基本上每周都有更新的。
Java网络爬虫实操(5)
本篇文章的目标:使用NetDiscovery爬虫框架,使用GET和POST两种方式,获取我们想要的json数据。 不要被提示文字所迷惑,明明是第一次访问,不可能是频繁操作导致的。 返回这种结果是网站服务端设计的一种反爬虫手段。 网站服务端识别到不是人在用浏览器访问它,所以返回这…
Java网络爬虫实操(4)
利用框架我们能快捷的实现一个图片爬虫程序,本地有开发环境的话,几分钟就能搞定。以上例子仅仅是抛砖引玉,大家自由发挥其中的使用场景吧。 图片爬虫框架PicCrawler还有很多强大的用法,大家有兴趣可以去github上详细了解吧。
Java网络爬虫实操(3)
pipeline是一种常见的算法模式,针对不断循环的耗时任务,如果要等一个循环结束后再轮到处理下一个任务的话,时间上有点浪费。 所以,把耗时任务拆分为几个环节,只要一个环节完成了,就可以轮到下一个任务的那个环节就马上开始处理。不用等到这个耗时任务全部结束了才开始。 我认为应用在…
Java网络爬虫实操(2)
从2017年下半年开始,比特币、数字货币、虚拟币、区块链技术、去中心化等等新名词频频出现在媒体上,让人不想看到都很难。 找了一个数字货币的聚合信息平台,上面会定时刷新每种货币的价格。如果要写一个有实际价值的抓数据程序,那肯定希望这个程序能重复执行抓数据的动作吧。 依赖框架,有一…
Java网络爬虫实操(10)
使用chrome浏览器访问网页,需要使用对应平台和版本的driver程序。 实现一个继承SeleniumAction的类,执行逻辑都在这里。 以上代码只是例子,实际工作中action逻辑会比较复杂。我们可以根据需求,把action拆分为多个,通过list装配到加载器,框架会根据…
这可能是你见过的最全的网络爬虫干货总结!
昨天的时候我参加了掘金组织的一场 Python 网络爬虫主题的分享活动,主要以直播的形式分享了我从事网络爬虫相关研究以来的一些经验总结,整个直播从昨天下午 1 点一直持续到下午 5 点,整整四个小时。 整个分享分为三个阶段,第一阶段先介绍了自己从大学以来从事编程开发以来的相关历…
Java网络爬虫实操(8)
程序在本地组织好一个request后,交给downloader从网络上抓取数据到本地,然后由parser处理本地的这些数据,最终生成可用的信息。 面向接口编程是这个框架的重要设计思想之一。 以下介绍部分downloader代码,这些代码的共同点是实现了Downloader接口。…
Java网络爬虫实操(7)
seleinum本质上是一种自动化测试工具,在爬虫技术中主要用来模拟人对浏览器的操作,理论上人通过鼠标键盘操作的所有过程,都可以用程序代码模拟出来,然后获取我们想要的网页数据。 试用下来发现NetDiscovery框架对seleinum操作的支持还比较简单,我会继续关注。