看到最近老在提的论文<基于文本及符号密度的网页正文提取方法>,想到反正最近也在从头学Rust,感觉用rust写一次试一试什么的。
虽然还是初版,不过确实对新闻的提取效果挺棒的。不过如果是基于md的文章,比如掘金什么的,p标签的比重很低,反而是其他标签甚至是div的直接文本子代都很多,导致打分函数没办法正确打分。考虑是不是把所有非链接标签全部替换成p标签会好一些Orz。
顺带,感觉我写的代码好丑啊Orz.....
展开
评论