一、技术背景与痛点
学术数据采集常见结构:列表页(检索结果、机构文库) + 详情页(全文、引用、DOI)。手动整理 50 篇文献至少 2~3 小时且易错;普通采集工具对多语言、复杂结构适配不足;传统客户端功能全但安装成本高。Chrome 插件作为轻量方案,在「即开即用」和「可配置性」之间取得平衡。
二、插件能力与差异化
| 能力 | 说明 |
|---|---|
| 多层级 | 列表字段 + 链接子字段,自动进详情页抓全文、引用数 |
| 多格式 | Excel、CSV、JSON,对接 Python/R/Stata |
| 通用识别 | 基于语义、结构,不依赖固定 class/id,支持多语言 |
| 本地存储 | 数据存 IndexedDB,可导出备份 |
LionSpider 的差异化:插件形态免安装;多层级 + 多格式一体化;针对学术站点多语言、嵌套结构做了适配。
三、实战步骤(4 步上手)
- 安装:Chrome/Edge 应用商店搜索「LionSpider」;
- 数据源:当前网址或种子网址(支持
{{$loop}}、{{$list}}变量生成); - 字段配置:列表字段提取标题、作者、年份、摘要、链接;链接字段配置子字段,跳转详情页抓全文、关键词、引用数;
- 翻页:按站点选择滚动加载或点击翻页,启动采集,导出 Excel/CSV/JSON。
单页表格可用「简洁采集」,自动识别文章详情、表格,零配置。
四、导出格式选择
| 用途 | 推荐格式 |
|---|---|
| Excel 统计分析 | Excel |
| Python/R/Stata | CSV 或 JSON |
| 保留完整嵌套结构 | JSON |
五、适用场景与注意事项
- 适合:文献列表采集、公开数据集整理、多语言学术站点;
- 不适合:需登录的私有数据库、有严格反爬的付费库。
仅采集公开、合规数据,遵守数据库与出版方使用条款,用于学术研究时引用与标注需规范。