爬虫入门指南-某专利网站的专利数据查询并存储

110 阅读1分钟

免责声明

本教程仅用于教育目的,演示如何合法获取公开专利数据。在实际操作前,请务必:

  1. 仔细阅读目标网站的robots.txt文件和服务条款
  2. 控制请求频率,避免对服务器造成负担
  3. 仅获取和使用公开数据
  4. 不用于商业用途或大规模抓取

本次教学网站:aHR0cDovL2VwdWIuY25pcGEuZ292LmNuL0FkdmFuY2Vk(请自行base64解密)。

本次实现需求:1.查询某固定日期之后的所有专利 2.将获取到的专利数据写入xlsx文件

本次使用语言:python

实现思路:DrissionPage实现自动化操作网页,向公布开始日期的输入框插入需要查询的日期(若需要其他查询条件思路与其基本一致),点击查询按钮跳转至专利数据列表页面,获取总计页面数量,循环总计页面数量,自动获取并向xlsx文件写入每一页数据,如果当前页不是最后一页,点击下一页继续获取数据并完成写入。

image.png

image.png

image.png

image.png

程序输出结果:

image.png

image.png

完整代码