Chrome 插件实现学术文献数据采集：LionSpider 实战学术数据采集常见结构：列表页 + 详情页。手动整理 5

一、技术背景与痛点

学术数据采集常见结构：列表页（检索结果、机构文库） + 详情页（全文、引用、DOI）。手动整理 50 篇文献至少 2～3 小时且易错；普通采集工具对多语言、复杂结构适配不足；传统客户端功能全但安装成本高。Chrome 插件作为轻量方案，在「即开即用」和「可配置性」之间取得平衡。

低门槛易上手-1.png

能力	说明
多层级	列表字段 + 链接子字段，自动进详情页抓全文、引用数
多格式	Excel、CSV、JSON，对接 Python/R/Stata
通用识别	基于语义、结构，不依赖固定 class/id，支持多语言
本地存储	数据存 IndexedDB，可导出备份

LionSpider 的差异化：插件形态免安装；多层级 + 多格式一体化；针对学术站点多语言、嵌套结构做了适配。

无限层级子页面-1.png