新闻采集主要是几个区域识别,包括:列表标签,翻页标签,详情标题,时间,详情正文。
本人总结了市面上开源的标签识别算法:
1. GNE 抽取列表页,详情页 github.com/GeneralNews…
列表页:可视化区域识别,人工辅助
详情页: 标题- 特定标签, 时间-正则表达式,正文-文本密度
2. Geragy 抽取列表页,详情页 github.com/Gerapy/Gera…
列表页: 子树的相似度
详情页:文本密度
3.Readability 抽取详情页,github.com/buriy/pytho…
抽取标题,正文,时间供人阅读。
4. mlscraper 基于机器学习的网页数据抽取 github.com/lorey/mlscr…
提供目标数据,它学习数据的规则,并抽取数据
5.newspaper github.com/codelucas/n…
- jina-ai github.com/jina-ai/rea…
目剪效果最好的通用型详情页抽取库,输入 url 可抽取标题,发布时间,正文(markdown格式), 适合于新闻类的抽取,缺点是抽取的正文不带h5标签. 使用方法在url 前拼 前缀,r.jina.ai :
https://r.jina.ai/https://www.jiqizhixin.com/articles/081203
7. fire-crawl github.com/mendableai/…