悄悄咪咪到周四!!今天带来的项目是一个超实用的 HTML 内容提取工具!它是基于 Python,基于《基于文本及符号密度的网页正文提取方法》论文写的正文抽取器,可以用来提取 HTML 中正文的内容、作者、标题。
hellogithub.com【HG 成员采访回忆录:据一位“不肯透露姓名”的成员说之前看到这篇论文也想实现该抽取工具,但是因为懒所以放弃了,希望大家有想法千万不要放弃呀!!趁自己还年轻~就是拼~】
展开
2
12