WiseFlow:AI加持的信息挖掘工具

549 阅读3分钟

WiseFlow:AI加持的信息挖掘工具

前言

Wiseflow)是一个敏捷的信息挖掘工具,可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。

我们缺的其实不是信息,我们需要的是从海量信息中过滤噪音,从而让有价值的信息显露出来。

也就是说,我们可以借助这个工具,自动抓取各种相关的信息进行过滤和分类,用作自己的知识库,在配合RAG的话,无疑是知识积累的一大利器。

特点

✅ 通用网页内容解析器,综合使用统计学习(依赖开源项目 GNE)和 LLM,适配90%以上的新闻页面;

✅ 异步任务架构;

✅ 使用LLM进行信息提取和标签分类(最低只需使用9B大小的LLM就可完美执行任务)!

wiseflow 是一个原生的 LLM 应用,仅需 7B~9B 大小 LLM 就可以很好的执行信息挖掘、过滤与分类任务,且无需向量模型,系统开销很小,适合各种硬件环境下的本地化以及私有化部署。

git仓库地址: github.com/TeamWiseFlo…

7B-9B 的模型在 Mac M3 上能够流畅运行,接下来我们就来试试吧。

安装与使用

官方提供了 dockerPython 两种运行方式,本文采用 docker 运行

克隆仓库

git clone https://github.com/TeamWiseFlow/wiseflow.git

docker运行

复制 env.example.env.env

cd wiseflow && docker-compose up

第一次运行报错

第二次运行成功。

创建pb账号并修改配置文件

  1. 访问 http://localhost:8090/_/

输入账号密码以及确认密码

创建成功后如下:

然后将账号密码写入 .env 文件中

注册 SiliconFlow (官方推荐的,当然也可以使用其它的,下次试试 ollama 能不能行)。

获取到 apikey ,写入 .env 文件中

重启容器

添加关注点和扫描信源

打开 http://localhost:8090/_/

创建 tag ,通过这个表单可以指定你的关注点,LLM 会按此提炼、过滤并分类信息。

创建扫描信源,通过这个表单可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析,这里我们把 per_hours 设为1

结果

重新启动容器,因为之前设置的定时时间是1小时,重启会自动执行

最终在 insights 表中看到了我的上一篇文章被抓取到了,tagAI相关

最后

我试了一下,貌似微信不能进行自动抓取,其它的新闻资讯网站大多都可以实现自动抓取。

据官方描述,这个项目可以基于本地大模型运行,兼容 OpenAi sdk 并配置 LLM_API_BASE 即可。

已经有了基于该项目作为下游任务的应用 awada( 基于微信的可在线自主学习的个人AI助理(也可能是行业专家))。