下载多个公众号全部历史文章打造逆向知识库

40 阅读4分钟

前言

之前我整理了关于安卓和js逆向相关的一百多公众号,有兴趣的可以看:学习逆向的一百多个公众号整理汇总。GitHub仓库地址:https://github.com/kanadeblisst00/high-quality-biz

这篇文章来将这些公众号所有的历史文章下载成pdf的格式,然后上传到知识库里看看问答的效果怎么样。后面也会每周增量更新上一周的文章到知识库里。这么看来RSS订阅的形式其实不如做成知识库来阅读的方便,因为你也可以浏览文章,还能问答。

就是有些逆向文章可能比较敏感,发布没多久就被删除了,这样如果一周保存一次感觉就会漏掉这类文章。后面看看要不要加上监听公众号更新然后自动下载公众号文章的功能。

知识库选择

知识库需要满足以下条件:

    1. 可以公开分享,并且国内用户能访问到
    1. 可以批量上传,最好是能直接上传文件夹
    1. 容量够,可以存一百多个公众号的所有历史文章(目前已经25G)
    1. 支持大文件上传,有的pdf可能有二三十兆

虽然某些知识库可能模型很强,回答的比较好,但如果无法满足上面的条件,即使知识库使用的模型再强也发挥不了什么作用。

目前找了几个测试,只有腾讯的ima满足这些条件(很多都是不支持大文件上传和容量很低),所以这里就以它来作为示例。

如果大家有更好的选择,可以在评论区发表一下建议,当然自建的知识库也在考虑范围内。

分享链接

所有文件已经全部上传到知识库里,大家想要体验的可以访问 【ima知识库】学习逆向的公众号文章: https://ima.qq.com/wiki/?shareId=64905d8ac534b9104c97b7b62da31f07faa0bc09a4429e3fbe7f8aa1c14a1991

ad55bdf1dbe5518b01981dd35a714664.png 我还没开始分享链接,已经有人在ima的发现里加入了。

知识库

ima的使用方法我这里就不多说了,基本也没什么复杂的步骤。后面会不定时上传增量文章到知识库里,不过每个知识库的容量是30G,现在已经25G多,估计不需要多久就到达上限了。

后面到了再看吧,其实已经下载的文章里有很多文章并非逆向相关的,或者可能就是广告,有时间再一一筛选删除吧。大家有发现的也可以提醒我删除掉。

测试问题1

某音加密参数a-bogus如何逆向

9ae6549177252ffcf6d4b6718f3e3c95.png

回答的结果其实不是很重要,主要是他能找到哪些文章包含了该问题。然后我们可以自己看文章来找答案,等于只是把它当成了更智能的全文搜索。

56ba8cfad95480249158cb8595833036.png

不知道这些引用能不能排序,例如我想按时间来排序。或者说知识库的答案能否优先最新的文章,因为逆向的时效性其实很高,去年的文章也许并没有什么参考性了。

不过目前上传文件的时候并没有让设置文件时间,拿现在这个功能肯定是没有的。

有意思的是它还能截图文档中的一部分给你说明(下载的时候并没有加载全部评论,这个可能也是一个优化点,评论其实也有搜索的价值)

df9af8a760260d2d517de1c8cc425caf.png

测试问题2

某音APP端如何实现抓包请求

c5d045df6b4de82349e2b43cf0911a65.png

感觉效果还挺强怎么回事,后面绿色的序号是说明这句话引用自哪个文档,鼠标放上去就能看到。

测试问题3

第三个问题我们问点不一样的

3344968d7d4bd060e406b79a78126b31.png

看来确实有不少大佬有自己的知识星球

总结

感觉ima知识库已经足够满足我的要求了,后面只需要将文章增删维护就行了,不过如果有新的方案肯定还是得体验一下的。

知识库大家可以自行玩吧,有什么建议也可以评论告诉我。