获得徽章 0
看到最近老在提的论文<基于文本及符号密度的网页正文提取方法>,想到反正最近也在从头学Rust,感觉用rust写一次试一试什么的。
虽然还是初版,不过确实对新闻的提取效果挺棒的。不过如果是基于md的文章,比如掘金什么的,p标签的比重很低,反而是其他标签甚至是div的直接文本子代都很多,导致打分函数没办法正确打分。考虑是不是把所有非链接标签全部替换成p标签会好一些Orz。
顺带,感觉我写的代码好丑啊Orz.....
虽然还是初版,不过确实对新闻的提取效果挺棒的。不过如果是基于md的文章,比如掘金什么的,p标签的比重很低,反而是其他标签甚至是div的直接文本子代都很多,导致打分函数没办法正确打分。考虑是不是把所有非链接标签全部替换成p标签会好一些Orz。
顺带,感觉我写的代码好丑啊Orz.....
展开
评论
点赞
赞了这篇沸点
2
31
赞了这篇文章
赞了这篇文章
赞了这篇沸点
CommentCoreLibrary 是一套基于 JavaScript 构建的弹幕控制器,提供从基本骨架到高级弹幕的支持,GitHub 地址:
github.com,在线体验:
jabbany.github.io
1
25
赞了这篇文章