大模型工具—wiseflow 首席情报官信息收集的王者神器

2,647 阅读5分钟

AI工具—wiseflow 首席情报官信息收集的王者神器

席情报官(Wiseflow)是一个敏捷的信息挖掘工具,可以从各种给定信源中依靠大模型的思考与分析能力精准抓取特定信息,全程无需人工参与。可以从网站、微信公众号、社交平台等各种信息源中按设定的关注点提炼讯息,自动做标签归类并上传数据库。

我们缺的不是信息,而是从海量信息中过滤噪音,从而让有价值的信息显露出来

看看AI情报官是如何帮您节省时间,过滤无关信息,并整理关注要点的吧!

功能特色

原生 LLM 应用:我们精心选择了最适合的 7B~9B 开源模型,最大化降低使用成本,且利于数据敏感用户随时完全切换至本地部署。

轻量化设计:不用任何向量模型,系统开销很小,无需 GPU,适合任何硬件环境。

智能信息提取和分类:从各种信息源中自动提取信息,并根据用户关注点进行标签化和分类管理。

WiseFlow尤其擅长从微信公众号文章中提取信息,为此我们配置了mp article专属解析器!

可以被整合至任意Agent项目:可以作为任意 Agent 项目的动态知识库,无需了解wiseflow的代码,只需要与数据库进行读取操作即可!

流行的 Pocketbase 数据库:数据库和界面使用 PocketBase,除了 Web 界面外,目前已有 Go/Javascript/Python 等语言的SDK。

项目部署

1. 克隆源代码

git clone https://github.com/TeamWiseFlow/wiseflow.git

image-20250102214003849

2. 执行根目录下的 install_pocketbase.sh 脚本

该脚本会引导下载并配置 pocketbase(版本选择0.23.4),同时在 core 下创建 .env 文件。

chmod +x install_pocketbase.sh
./install_pocketbase.sh

wiseflow 0.3.x版本使用 pocketbase 作为数据库

V0.3.0 重大更新

✅ 全新改写的通用网页内容解析器,综合使用统计学习(依赖开源项目GNE)和LLM,适配90%以上的新闻页面;

✅ 全新的异步任务架构;

✅ 全新的信息提取和标签分类策略,更精准、更细腻,且只需使用9B大小的LLM就可完美执行任务!

你当然也可以手动下载 pocketbase 客户端 (记得下载0.23.4版本,并放入 pb目录下) 以及手动完成superuser的创建(记得存入.env文件)

image-20250102214254189

填入账户信息和密码

image-20250102214310813

接下来就安装成功了

image-20250102214334455

3. 继续配置 core/.env 文件

这里与之前版本不同,V0.3.5开始需要把 .env 放置在 core文件夹中。复制目录下的env_sample,并改名为.env

3.1 大模型相关配置

wiseflow 是 LLM 原生应用,请务必保证为程序提供稳定的 LLM 服务。

🌟 wiseflow 并不限定模型服务提供来源,只要服务兼容 openAI SDK 即可,包括本地部署的 ollama、Xinference 等服务

3.2 推荐使用硅基流动(siliconflow)提供的 MaaS 服务

siliconflow(硅基流动)提供大部分主流开源模型的在线 MaaS 服务,凭借着自身的加速推理技术积累,其服务速度和价格方面都有很大优势。使用 siliconflow 的服务时,.env的配置可以参考如下:

export LLM_API_KEY=Your_API_KEY
export LLM_API_BASE="https://api.siliconflow.cn/v1"
export PRIMARY_MODEL="Qwen/Qwen2.5-32B-Instruct"
export SECONDARY_MODEL="Qwen/Qwen2.5-7B-Instruct"
export VL_MODEL="OpenGVLab/InternVL2-26B"

.env 放置在 core文件夹中。我们可以根据env_sample文件进行修改后移动到core文件夹中

image-20250102215525855

cd core
pip install -r requirements.txt
chmod +x run.sh
./run_task.sh # if you just want to scan sites one-time (no loop), use ./run.sh

🌟 这个脚本会自动判断 pocketbase 是否已经在运行,如果未运行,会自动拉起。但是请注意,当你 ctrl+c 或者 ctrl+z 终止进程时,pocketbase 进程不会被终止,直到你关闭terminal。

run_task.sh 会周期性执行爬取-提取任务(启动时会立即先执行一次,之后每隔一小时启动一次), 如果仅需执行一次,可以使用 run.sh 脚本。

Starting PocketBase...
2025/01/02 21:58:20 Server started at http://127.0.0.1:8090
├─ REST API:  http://127.0.0.1:8090/api/
└─ Dashboard: http://127.0.0.1:8090/_/
2025-01-02 21:58:25.165 | DEBUG    | utils.pb_api:__init__:12 - initializing pocketbase client: http://127.0.0.1:8090
2025-01-02 21:58:25.299 | INFO     | utils.pb_api:__init__:22 - pocketbase ready authenticated as admin - kingcall@hotmail.com
2025-01-02 21:58:25.313 | INFO     | agents.get_info:__init__:22 - no activated tag found, will ask user to create one

第一次启动后提示你没有配置任何需要关注的信息,这里我们不用管,直接去页面上配置

2025-01-02 21:58:25.313 | INFO     | agents.get_info:__init__:22 - no activated tag found, will ask user to create one
It seems you have not set any focus point, WiseFlow need the specific focus point to guide the following info extract job.so please input one now. describe what info you care about shortly: AI
Please provide more explanation for the focus point (if not necessary, pls just type enter:

当你下次启动的时候就不会看到这个信息了

image-20250102222008725

4. 任务配置

打开这个地址http://127.0.0.1:8090/_/,根据配置的信息进行登陆

image-20250102220936029

4.1 配置站点信息

image-20250102221058671

通过这个表单可以指定自定义信源,系统会启动后台定时任务,在本地执行信源扫描、解析和分析。

sites 字段说明:

  • url, 信源的url,信源无需给定具体文章页面,给文章列表页面即可。
  • per_hours, 扫描频率,单位为小时,类型为整数(1~24范围,我们建议扫描频次不要超过一天一次,即设定为24)
  • activated, 是否激活。如果关闭则会忽略该信源,关闭后可再次开启。

image-20250102221814466

4.2 配置关注的信息

image-20250102221154636

通过这个表单可以指定你的关注点,LLM会按此提炼、过滤并分类信息。

字段说明:

  • focuspoint, 关注点描述(必填),如”上海小升初信息“、”加密货币价格“
  • explanation,关注点的详细解释或具体约定,如 “仅限上海市官方发布的初中升学信息”、“BTC、ETH 的现价、涨跌幅数据“等
  • activated, 是否激活。如果关闭则会忽略该关注点,关闭后可再次开启。

注意:focus_point 更新设定(包括 activated 调整)后,需要重启程序才会生效。

image-20250102221927679