从文档到知识图谱,从模糊检索到证据溯源——重新定义 AI 文档分析的方式。
一个问题:你的 AI 在"回答",还是在"编造"?
我们都经历过这样的场景:把一份 200 页的行业报告丢给 AI,问它"这家公司的营收趋势如何?",得到的回答看起来合理,却找不到任何出处。你追问"依据是什么?",它开始含糊其辞,甚至虚构数据。
这不是 AI 的错——是架构的错。
传统 RAG(检索增强生成)管线的工作方式是:把文档切成碎片,转成向量,用"语义相似度"找到"大概相关"的片段,然后让大模型基于这些片段拼凑答案。问题在于——文档的结构、上下文、数据之间的逻辑关系,在切片的那一刻就已经丢失了。
基于这个思考, 我开源了一个项目InsightGraph: github.com/LHKong7/Ins…
InsightGraph 选择了一条完全不同的路。
图谱优先:把文档变成可推理的知识网络
InsightGraph 不做切片,不做向量检索。它做的事情更接近一个分析师的工作方式:
- 结构化解析:保留文档的章节层次、表格、脚注、图表说明——PDF、CSV、JSON、Markdown、Excel,全格式支持
- 知识抽取:通过四条并行的 LLM 管线,自动识别实体、指标、论断和关系
- 证据绑定:每一条论断都锚定到原文的具体页码和字符位置
- 图谱构建:所有信息以原子事务写入 Neo4j,形成可查询、可遍历的知识网络
当你问"NVIDIA 的营收增长动力是什么?",InsightGraph 不是在一堆文本碎片里做模糊匹配——它在图谱中沿着 NVIDIA → 营收指标 → 关联论断 → 支撑证据 的路径精确追溯。每一步都有据可查。
四阶段智能体管线:不止回答,更要验证
InsightGraph 的核心不只是一个检索引擎,而是一个完整的 AI 分析师团队:
Stage 1:规划器(Planner)
分析你的问题,判断类型(事实查询、指标对比、趋势分析、风险识别、因果推理……),然后制定一个工具执行计划。它知道应该先查实体、再扩展关系、最后追溯证据——而不是漫无目的地搜索。
Stage 2:检索器(Retriever)
按计划执行图谱查询,但不止于此——它会在结果中发现新的实体,自动生成后续查询,迭代探索最多三轮,直到没有新信息浮现。这不是死板的"查一次就走",而是像分析师一样"顺藤摸瓜"。
Stage 3:分析师(Analyst)
综合所有检索结果,生成带有明确引用的分析报告。每个关键发现都标注来源页码和证据片段,同时识别数据中的空白和不确定性。
Stage 4:验证器(Verifier)
交叉核验分析师的每一条结论:证据是否充分?结论之间是否矛盾?覆盖率如何?只有通过验证的答案才会呈现给你。
结果:你得到的不是一段"听起来对"的文字,而是一份经过规划、检索、分析、验证的可信报告。
不只是后端——完整的产品级体系
交互式图谱可视化
Next.js 前端提供力导向图谱浏览器,节点按类型着色(实体、论断、指标),点击任意节点即可展开详情:关联的论断、历史指标、关系网络、证据链接。还有多轮对话界面,每轮对话都运行完整的四阶段管线。
12 个专业工具,通过 MCP 直连 Claude
InsightGraph 内置 MCP Server,将 12 个专业工具暴露给 Claude Desktop:
find_entities/get_entity_profile— 实体搜索与画像get_claims_about/find_evidence_for_claim— 论断查询与证据追溯get_metric_history/find_metric_trend— 指标历史与趋势检测find_contradictions— 自动发现矛盾论断compare_entity_across_reports— 跨报告对比分析entity_timeline— 实体事件时间线
这意味着 Claude 可以像使用工具一样直接操作你的知识图谱——不是生成 Cypher 查询碰运气,而是调用定义明确的 API。
两套 SDK,灵活集成
HTTP SDK — 适用于分布式架构,零依赖客户端,支持文件上传、状态轮询、会话管理、智能体查询。
嵌入式 SDK — 适用于 Electron 桌面应用、Node.js 服务或 CLI 工具,全流程在进程内完成:
const ig = new InsightGraph({ neo4j, llm, domain: "stock_analysis" });
await ig.initialize();
const { reportId, entities, claims } = await ig.ingest({ filePath: "report.pdf" });
const answer = await ig.agentQuery("What drove NVIDIA's growth in Q3?");
从文件到图谱到洞察,三行代码。
领域可定制:不只是通用工具
InsightGraph 内置了股票分析和餐饮分析两个领域配置,也支持通过 YAML 文件自定义:
- 股票分析:实体类型包括 STOCK、COMPANY、NEWS_EVENT、PRICE_MOVEMENT;关系包括 CAUSES_PRICE_CHANGE、AFFECTS_SECTOR
- 餐饮分析:实体类型包括 RESTAURANT、DISH、INGREDIENT;关系包括 DRIVES_TRAFFIC、POPULAR_WITH
- 自定义领域:定义你自己的实体类型、关系类型和抽取指令
无论你是在做金融研报分析、医疗文献综述、法律合规审查,还是供应链情报追踪——InsightGraph 都能适配你的领域语言。
为什么选择 InsightGraph?
| 对比维度 | 传统 RAG | InsightGraph |
|---|---|---|
| 文档处理 | 切片 + 向量化 | 结构化解析 + 知识抽取 |
| 检索方式 | 语义相似度匹配 | 图谱遍历 + 混合检索 |
| 答案可信度 | 无法溯源 | 每条结论有页码级证据 |
| 跨文档分析 | 基本不支持 | 原生支持跨报告对比、矛盾检测 |
| 数据关系 | 切片时丢失 | 显式建模为图谱关系 |
| 验证机制 | 无 | 内置四阶段验证管线 |
| 领域适配 | 通用 prompt | 可配置的领域本体 |
技术栈一览
- 语言:TypeScript 全栈
- 图数据库:Neo4j 5(同时支持 FalkorDB、SQLite)
- API 框架:Hono
- 前端:Next.js 16 + react-force-graph-2d
- 任务队列:BullMQ + Redis
- LLM:OpenAI 兼容接口(GPT-4o-mini 默认,可切换任意模型)
- 部署:Docker Compose 一键启动,环境变量驱动配置
- 协议:MCP(Model Context Protocol)原生支持
- 7 个核心包:core / parser / extractor / resolver / graph / retriever / agent-runtime
- 开源协议:MIT
开始使用
# 启动基础设施(Neo4j + Redis)
./scripts/start-infra.sh
# 构建所有包
./scripts/build.sh
# 一键启动所有服务
./scripts/start-all.sh
打开 http://localhost:3000,上传你的第一份报告,看着它被解构为实体、指标、论断和证据,编织成一张可遍历、可查询、可验证的知识图谱。
然后问它一个问题——这一次,每个答案都有据可查。
InsightGraph — 图谱优先,证据为王。
把文档变成可推理、可验证、可信赖的知识资产。