仿浏览器自动网页登录功能如何解决验证码的问题: ddddocr及其它

65 阅读2分钟

最近有一个需要要进行浏览器端网页拔测,测量相关网页的打开时间, 一看这不是playwright的强项么

不过这次场景上有点特别,检测对象要用验证码登录,还得研究一下,发现市面上大模型都默默下架了验证码识别功能,可能是某些原因,所以还得自己调查了。

调查下来,验证码常用的是字符式和滑块式,以及更多的变体(旋转,选图形,问问题。。。)这次还好是字符式的,感觉不难。

先问了AI,果然推荐很多办法,有ddddocr, 还有那个python的比较难拼的那套,还有飞桨的一套,果然花样很多,很有希望嘛,那就开整,

然而一开始并不顺利,识别的效果很差,搞不清楚原因, 失望之下,暂时放弃

过了两天,看到别人说ddddocr很好,让我再次拾起兴趣,这次试下来,似乎ddddocr还真不错?为何上次不行?

事后总结有几个原因:

  1. 图像质量要好,要用最高分辨率去截图
  2. 图像不要歪得太厉害,有些字符旋转角度太大了,这种往往判断不准确, 这一步还是挺重要的,但是不受我们控制
  3. 要把probability这个开关打开,让classification的时候返回ocr识别结果的“信心”,然后自己根据这个信心值,以及辨识结果的正确性,去人为设置一个可接受的值下限, 来进一步过滤
  4. 针对2, 其实还可以做一件事,就是把图像进行多角度旋转并识别,得到其中最好的结果返回
  5. 需要的话还可以对图像进行处理,比如裁边,比如黑白化,比如切分等,但是这里我黑白化以后结果反而更差了,不明白原因

关于滑块,以及其它,可能有高级的思路,比如yolox之类,只是暂时用不到,没有继续研究,see www.cnblogs.com/carpell/p/1…

Python爬虫验证码识别新姿势!ddddocr+captcha-recognizer零成本实现高精度识别率(附实战代码) zhuanlan.zhihu.com/p/189220568…

ddddocr训练字符验证码 blog.51cto.com/lenglingx/1…

基于 FastAPI 和 DdddOcr 的高性能 OCR API 服务,提供图像文字识别、滑动验证码匹配和目标检测功能。 github.com/sml2h3/dddd…

用python通过机器学习的方式实现验证码识别 (这篇我学习了很多) zhuanlan.zhihu.com/p/35792312