首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
KIM晓峰
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
14
文章 14
沸点 0
赞
14
返回
|
搜索文章
最新
热门
爬虫学习日记(十二)解析PDF
做爬虫ICLD的migration的时候,发现ICLD的官网,显示各种route信息是不是显示在html上,而是一张PDF。 所以问题就转变为,解析PDF为HTML再进行以往的分析操作。 首先通过绕过ssl认证去获取网页上的信息,转成inputStream写进临时文件里面。 在…
爬虫学习日记(十一)selenium 页面元素更新
今天HDMU发现获取的信息有重复,错乱的现象。 Debug排查原因以后,发现是因为点击显示详情后,他旧的信息还没有更新,就被capture了,导致某些信息是重复的。 归根到底的原因是因为: 用.visibilityOfElementLocated()只有第一次是有用的,当后面再…
爬虫学习日记(十)selenium frame的切换
旧的HDMU被block,换成官网重新写一个新的,换成官网以后可以发现整个爬虫的效率都变慢很多。毕竟是因为是模拟浏览器,浏览器打开官网要加载许多用不上的东西,就导致整个加载速度很慢,可以了解很多爬虫可能只是访问原先网站一个必要的iframe或则其他的,可以大大加速爬虫的效率。 …
爬虫学习日记(九)Selenium点击事件超时 改用执行JS
在开发一个用selenium+chrome的爬虫项目的时候,原先用点击事件是可以完成所有操作的,但是在deploy上服务器的时候,在点击一个图片的点击事件中,click操作一直超时,大佬说用selenium的xpath定位一直会出问题,让我用By.id或则By.name来定位,…
爬虫学习日记(八)
1.之前的作者写的工具类,里面的重定向出现了问题,没有重定向成功。 我重新声明一个httpclient,不过用的还是defaultHttpclient的方式,这个方式早已经过时了,但是我需要他前面操作然后获取他的cookie,用最新的方式的话,全部都要大改,所以我就跟着他先用着…
爬虫学习日记(七)
今天上午继续在弄WHLC的东西,是环境的问题。 因为12PD的网站只能支持一个月内的搜索,所以当工具厘米的起始时间和结束时间超过一个月,无法返回正确的内容。 关于这个是因为我之前研究过这个网站,确实是不能搜索超过一个月,会报一个错,所以当时间超过1个月是,我会返回一个noRes…
爬虫学习日记(六)
目前尚未解决 毫无头绪。。。
爬虫学习日记(六)完成第一个爬虫任务
距离上一篇学习日记已经过去了两个星期,简单讲一下这两个星期都干了些什么吧。 测试SUDU是否可以用selenium的方式来获取网页信息。 用selenium的方式实现SUDURoute的功能。 完成SITC Crawler。 因为capture SUDU 的爬虫出了问题,估计是…
爬虫学习日记(五)
本来应该昨天来做这个的,但是Cindy有了一个新的东西让我去做。 Solr上面的跑SUDU的Crawler被block掉了,估计是经常爬取数据,被屏蔽了,Cindy姐说SUDU那边只要访问的是Linux的机子就都会被block掉了,说到这里,突然想到,可以在请求头修改我们这边的…
爬虫学习日记(四)分析Freenium
说实话对整个系统都不是了解的很清楚,想要讲一下ssm和bigs的区别我都觉得有点分不清楚,可能就是两种不同的方式来爬取数据,到后面其实是有要做一个compare的功能的,但现在了解这些也没有用,先慢慢看逻辑吧。 QA工具整体代码看起来不多,但是我觉得比较困难的部分,就是每一次他…
下一页
个人成就
文章被点赞
18
文章被阅读
11,045
掘力值
391
关注了
25
关注者
11
收藏集
0
关注标签
26
加入于
2018-11-04