新闻采集中字段识别算法

2022-06-18 849 阅读1分钟

新闻采集主要是几个区域识别，包括：列表标签，翻页标签，详情标题，时间，详情正文。

本人总结了市面上开源的标签识别算法：

1. GNE 抽取列表页，详情页 github.com/GeneralNews…

列表页：可视化区域识别，人工辅助

详情页：标题- 特定标签，时间-正则表达式，正文-文本密度

2. Geragy 抽取列表页，详情页 github.com/Gerapy/Gera…

列表页：子树的相似度

详情页：文本密度

3.Readability 抽取详情页，github.com/buriy/pytho…

抽取标题，正文，时间供人阅读。

4. mlscraper 基于机器学习的网页数据抽取 github.com/lorey/mlscr…

提供目标数据，它学习数据的规则，并抽取数据

5.newspaper github.com/codelucas/n…

jina-ai github.com/jina-ai/rea…

目剪效果最好的通用型详情页抽取库，输入 url 可抽取标题，发布时间，正文(markdown格式), 适合于新闻类的抽取，缺点是抽取的正文不带h5标签. 使用方法在url 前拼前缀，r.jina.ai ：

https://r.jina.ai/https://www.jiqizhixin.com/articles/081203

7. fire-crawl github.com/mendableai/…