看到最近老在提的论文<基于文本及符号密度的网页正文提取方法> - 被叫做可儿的逸轩 - 沸点 - 掘金

前端摸鱼研究会员 @inceptionpad inc.

看到最近老在提的论文<基于文本及符号密度的网页正文提取方法>,想到反正最近也在从头学Rust，感觉用rust写一次试一试什么的。
虽然还是初版，不过确实对新闻的提取效果挺棒的。不过如果是基于md的文章，比如掘金什么的，p标签的比重很低，反而是其他标签甚至是div的直接文本子代都很多，导致打分函数没办法正确打分。考虑是不是把所有非链接标签全部替换成p标签会好一些Orz。
顺带，感觉我写的代码好丑啊Orz.....

展开

优秀开源项目