新闻采集中字段识别算法

844 阅读1分钟

新闻采集主要是几个区域识别,包括:列表标签,翻页标签,详情标题,时间,详情正文。

本人总结了市面上开源的标签识别算法:

1. GNE 抽取列表页,详情页 github.com/GeneralNews…

列表页:可视化区域识别,人工辅助

详情页: 标题- 特定标签, 时间-正则表达式,正文-文本密度

2. Geragy  抽取列表页,详情页   github.com/Gerapy/Gera…

   列表页: 子树的相似度

  详情页:文本密度    

3.Readability  抽取详情页,github.com/buriy/pytho…

抽取标题,正文,时间供人阅读。

4. mlscraper  基于机器学习的网页数据抽取  github.com/lorey/mlscr…

提供目标数据,它学习数据的规则,并抽取数据

5.newspaper github.com/codelucas/n…

  1. jina-ai github.com/jina-ai/rea…

目剪效果最好的通用型详情页抽取库,输入 url 可抽取标题,发布时间,正文(markdown格式), 适合于新闻类的抽取,缺点是抽取的正文不带h5标签. 使用方法在url 前拼 前缀,r.jina.ai :

https://r.jina.ai/https://www.jiqizhixin.com/articles/081203

7. fire-crawl github.com/mendableai/…