获得徽章 0
- 看到最近老在提的论文<基于文本及符号密度的网页正文提取方法>,想到反正最近也在从头学Rust,感觉用rust写一次试一试什么的。
虽然还是初版,不过确实对新闻的提取效果挺棒的。不过如果是基于md的文章,比如掘金什么的,p标签的比重很低,反而是其他标签甚至是div的直接文本子代都很多,导致打分函数没办法正确打分。考虑是不是把所有非链接标签全部替换成p标签会好一些Orz。
顺带,感觉我写的代码好丑啊Orz.....展开评论点赞 - 看到最近老在提的论文<基于文本及符号密度的网页正文提取方法>,想到反正最近也在从头学Rust,感觉用rust写一次试一试什么的。
虽然还是初版,不过确实对新闻的提取效果挺棒的。不过如果是基于md的文章,比如掘金什么的,p标签的比重很低,反而是其他标签甚至是div的直接文本子代都很多,导致打分函数没办法正确打分。考虑是不是把所有非链接标签全部替换成p标签会好一些Orz。
顺带,感觉我写的代码好丑啊Orz.....展开评论点赞
,拿了俩纪念章,一个纪念币,一个手机支架,一本掘金小册。最后现场比赛拿了靠着网速优势拿了成人组第二名,奖品四百元机械键盘,开心ヽ(○^㉨^)ノ♪。
。