InsightGraph:当 AI 不再"猜",而是"查证"

3 阅读6分钟

从文档到知识图谱,从模糊检索到证据溯源——重新定义 AI 文档分析的方式。


一个问题:你的 AI 在"回答",还是在"编造"?

我们都经历过这样的场景:把一份 200 页的行业报告丢给 AI,问它"这家公司的营收趋势如何?",得到的回答看起来合理,却找不到任何出处。你追问"依据是什么?",它开始含糊其辞,甚至虚构数据。

这不是 AI 的错——是架构的错。

传统 RAG(检索增强生成)管线的工作方式是:把文档切成碎片,转成向量,用"语义相似度"找到"大概相关"的片段,然后让大模型基于这些片段拼凑答案。问题在于——文档的结构、上下文、数据之间的逻辑关系,在切片的那一刻就已经丢失了。

基于这个思考, 我开源了一个项目InsightGraph: github.com/LHKong7/Ins…

InsightGraph 选择了一条完全不同的路。


图谱优先:把文档变成可推理的知识网络

InsightGraph 不做切片,不做向量检索。它做的事情更接近一个分析师的工作方式:

  1. 结构化解析:保留文档的章节层次、表格、脚注、图表说明——PDF、CSV、JSON、Markdown、Excel,全格式支持
  2. 知识抽取:通过四条并行的 LLM 管线,自动识别实体、指标、论断和关系
  3. 证据绑定:每一条论断都锚定到原文的具体页码和字符位置
  4. 图谱构建:所有信息以原子事务写入 Neo4j,形成可查询、可遍历的知识网络

当你问"NVIDIA 的营收增长动力是什么?",InsightGraph 不是在一堆文本碎片里做模糊匹配——它在图谱中沿着 NVIDIA → 营收指标 → 关联论断 → 支撑证据 的路径精确追溯。每一步都有据可查。


四阶段智能体管线:不止回答,更要验证

InsightGraph 的核心不只是一个检索引擎,而是一个完整的 AI 分析师团队

Stage 1:规划器(Planner)

分析你的问题,判断类型(事实查询、指标对比、趋势分析、风险识别、因果推理……),然后制定一个工具执行计划。它知道应该先查实体、再扩展关系、最后追溯证据——而不是漫无目的地搜索。

Stage 2:检索器(Retriever)

按计划执行图谱查询,但不止于此——它会在结果中发现新的实体,自动生成后续查询,迭代探索最多三轮,直到没有新信息浮现。这不是死板的"查一次就走",而是像分析师一样"顺藤摸瓜"。

Stage 3:分析师(Analyst)

综合所有检索结果,生成带有明确引用的分析报告。每个关键发现都标注来源页码和证据片段,同时识别数据中的空白和不确定性。

Stage 4:验证器(Verifier)

交叉核验分析师的每一条结论:证据是否充分?结论之间是否矛盾?覆盖率如何?只有通过验证的答案才会呈现给你。

结果:你得到的不是一段"听起来对"的文字,而是一份经过规划、检索、分析、验证的可信报告。


不只是后端——完整的产品级体系

交互式图谱可视化

Next.js 前端提供力导向图谱浏览器,节点按类型着色(实体、论断、指标),点击任意节点即可展开详情:关联的论断、历史指标、关系网络、证据链接。还有多轮对话界面,每轮对话都运行完整的四阶段管线。

12 个专业工具,通过 MCP 直连 Claude

InsightGraph 内置 MCP Server,将 12 个专业工具暴露给 Claude Desktop:

  • find_entities / get_entity_profile — 实体搜索与画像
  • get_claims_about / find_evidence_for_claim — 论断查询与证据追溯
  • get_metric_history / find_metric_trend — 指标历史与趋势检测
  • find_contradictions — 自动发现矛盾论断
  • compare_entity_across_reports — 跨报告对比分析
  • entity_timeline — 实体事件时间线

这意味着 Claude 可以像使用工具一样直接操作你的知识图谱——不是生成 Cypher 查询碰运气,而是调用定义明确的 API

两套 SDK,灵活集成

HTTP SDK — 适用于分布式架构,零依赖客户端,支持文件上传、状态轮询、会话管理、智能体查询。

嵌入式 SDK — 适用于 Electron 桌面应用、Node.js 服务或 CLI 工具,全流程在进程内完成:

const ig = new InsightGraph({ neo4j, llm, domain: "stock_analysis" });
await ig.initialize();

const { reportId, entities, claims } = await ig.ingest({ filePath: "report.pdf" });
const answer = await ig.agentQuery("What drove NVIDIA's growth in Q3?");

从文件到图谱到洞察,三行代码。


领域可定制:不只是通用工具

InsightGraph 内置了股票分析和餐饮分析两个领域配置,也支持通过 YAML 文件自定义:

  • 股票分析:实体类型包括 STOCK、COMPANY、NEWS_EVENT、PRICE_MOVEMENT;关系包括 CAUSES_PRICE_CHANGE、AFFECTS_SECTOR
  • 餐饮分析:实体类型包括 RESTAURANT、DISH、INGREDIENT;关系包括 DRIVES_TRAFFIC、POPULAR_WITH
  • 自定义领域:定义你自己的实体类型、关系类型和抽取指令

无论你是在做金融研报分析、医疗文献综述、法律合规审查,还是供应链情报追踪——InsightGraph 都能适配你的领域语言。


为什么选择 InsightGraph?

对比维度传统 RAGInsightGraph
文档处理切片 + 向量化结构化解析 + 知识抽取
检索方式语义相似度匹配图谱遍历 + 混合检索
答案可信度无法溯源每条结论有页码级证据
跨文档分析基本不支持原生支持跨报告对比、矛盾检测
数据关系切片时丢失显式建模为图谱关系
验证机制内置四阶段验证管线
领域适配通用 prompt可配置的领域本体

技术栈一览

  • 语言:TypeScript 全栈
  • 图数据库:Neo4j 5(同时支持 FalkorDB、SQLite)
  • API 框架:Hono
  • 前端:Next.js 16 + react-force-graph-2d
  • 任务队列:BullMQ + Redis
  • LLM:OpenAI 兼容接口(GPT-4o-mini 默认,可切换任意模型)
  • 部署:Docker Compose 一键启动,环境变量驱动配置
  • 协议:MCP(Model Context Protocol)原生支持
  • 7 个核心包:core / parser / extractor / resolver / graph / retriever / agent-runtime
  • 开源协议:MIT

开始使用

# 启动基础设施(Neo4j + Redis)
./scripts/start-infra.sh

# 构建所有包
./scripts/build.sh

# 一键启动所有服务
./scripts/start-all.sh

打开 http://localhost:3000,上传你的第一份报告,看着它被解构为实体、指标、论断和证据,编织成一张可遍历、可查询、可验证的知识图谱。

然后问它一个问题——这一次,每个答案都有据可查。


InsightGraph — 图谱优先,证据为王。

把文档变成可推理、可验证、可信赖的知识资产。

开源地址:GitHub - InsightGraph