通过组块化、费曼总结与加权关联检索实现人类语义记忆的模拟
摘要
我们提出 HBrain(Human Brain Semantic Network),一个模拟人脑语义记忆网络工作机制的知识图谱系统。与依赖人工维护或固定模式传统知识图谱不同,HBrain 通过整合两个认知学习理论实现将非结构化文档自动转化为结构化知识:西蒙的组块理论(Simon's Chunking Theory)将复杂信息分解为有意义的知识单元,费曼学习法(Feynman's Learning Method)生成用简单语言阐述的总结,捕捉每个知识单元的本质和实际意义。
系统引入三个关键创新:
-
费曼式知识抽取智能体 — 生成面向下游推理而非仅做描述的自我解释性实体表示。
-
加权关联检索机制 — 模拟人类通过语义网络的激活扩散,边缘权重反映关系强度,指数跳数衰减(γ = 0.7)模拟记忆衰减。
-
多层级证据分级系统 — 优先使用原文证据而非段落或摘要,模拟人类对第一手资料的偏好。
关键词: 知识图谱、语义记忆、认知学习、激活扩散、费曼学习法、组块理论
1. 引言
人类记忆并非被动存储系统,而是一个活跃的、关联的网络,概念通过语义关系相互连接 [Collins & Quillian, 1969]。当我们遇到新信息时,大脑自然地将其分解为有意义的组块 [Miller, 1956],通过对每个组块进行自我解释来深化理解 [Chi et al., 1989],随后通过联想链接的激活扩散来检索知识 [Anderson, 1983]。
传统知识图谱系统捕获实体和关系,但往往产生简洁的、面向机器的表示,缺乏类人推理所需的解释性丰富度。大型语言模型(LLM)在理解和生成自然语言方面表现出色,但在结构化长期记忆和大规模知识库上的多跳推理方面存在困难。
本文介绍 HBrain(人脑语义网络),该系统通过模拟两个成熟的认知学习理论来弥合上述差距:
1.1 西蒙的组块理论
赫伯特·西蒙观察到专业知识涉及识别信息中的有意义模式("组块")。HBrain 通过将文档分解为 13 种语义实体类型来实现这一原理——从具体的主体和对象到抽象的概念和规则——每种类型作为具有独特认知角色的知识组块。
1.2 费曼学习法
理查德·费曼主张用简单的语言解释复杂思想,作为真正理解的测试。HBrain 的抽取智能体为每个实体生成"费曼总结"——回答是什么、为什么重要、如何与其他知识关联的简单语言解释。这些总结专为下游推理优化,而非仅做描述。
1.3 主要贡献
- 费曼式知识抽取流水线 — 生成自我解释的实体表示,包含作为判断逻辑而非纯文本的结构化规则实体。
- 加权关联检索算法 — 22 种关系类型的校准边缘权重、指数跳数衰减(γ = 0.7)和弱关系剪枝的激活扩散。
- 多层级证据分级系统 — 按文档优先级的跟踪机制(原文 > 段落 > 摘要)。
- 集成评估流水线 — 基于 LLM 的质量评分、自动过滤(< 0.7)和重试机制。
2. 相关工作
2.1 知识图谱构建
传统知识图谱构建方法包括信息抽取流水线 [Banko et al., 2007]、关系抽取模型 [Riedel et al., 2010] 和本体学习 [Maedche & Staab, 2001]。近期方法利用 LLM 进行零样本或少样本抽取 [Wei et al., 2023],但往往产生扁平的、非结构化的输出,缺乏推理所需的语义丰富度。
2.2 记忆认知模型
柯林斯和奎廉的语义网络模型提出人类记忆将知识组织为通过标记边连接的节点,属性存储在适当的抽象层次。安德森的 ACT-R 架构 [Anderson, 1983] 将激活扩散作为检索机制,激活从源节点通过联想链接传播,随距离衰减。
西蒙的组块理论证明专家记忆将信息组织成有意义的单元(组块),实现快速识别和检索。蔡斯和西蒙证明象棋大师不是记忆更多单独棋子,而是识别更大、更有意义的模式 [Chase & Simon, 1973]。
2.3 基于 LLM 的知识系统
近期工作探索将 LLM 用于知识图谱构建 [Pan et al., 2024]、检索增强生成(RAG)[Lewis et al., 2020] 和基于图的推理 [Edge et al., 2024]。然而,这些系统通常将知识抽取视为机械过程,缺乏支持类人理解和检索的认知基础。
2.4 知识网络中的激活扩散
激活扩散已应用于信息检索 [Crestani, 1997]、语义搜索 [Hwang & Kim, 2019] 和推荐系统 [Symeonidis et al., 2008]。我们的工作通过将激活扩散与 LLM 生成的语义表示以及基于关系语义的原则性边缘权重校准相结合而与众不同。
3. 系统架构
HBrain 由四个主要组件构成:知识抽取流水线、图存储层、检索引擎和质量评估模块。
┌────────────────────────────────────────────────────────────────────────┐
│ HBrain 架构 │
├────────────────────────────────────────────────────────────────────────┤
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 文档 │───▶│ 费曼 │───▶│ 评估 │───▶ 存储 │
│ │ 输入 │ │ 抽取 │ │ 智能体 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 用户 │───▶│ 加权 │───▶│ 证据 │───▶ 回答 │
│ │ 查询 │ │ 检索 │ │ 分级 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ 存储层(Kuzu 图数据库、SQLite、MinIO) │
│ │
└────────────────────────────────────────────────────────────────────────┘
3.1 抽取流水线
- 文档解析:使用 MinerU VLM API 将文档解析为 markdown 格式,保留结构、表格和图像。
- 费曼抽取:FeynmanAgent 抽取实体和关系,生成自我解释的总结。
- 质量评估:EvaluationAgent 为每个实体和关系打分,过滤低置信度结果(< 0.7)。
- 图存储:将接受的实体和关系持久化到 Kuzu 图数据库。
3.2 检索流水线
- 查询分析:LLM 识别问题原型和搜索关键词。
- 实体匹配:并行 FTS5 搜索识别相关种子实体。
- 加权 BFS 扩展:从种子实体通过图进行激活扩散扩展。
- 证据收集:通过优先级跟踪收集多级证据。
- 证据过滤:LLM 评估证据与查询的相关性。
- 回答生成:生成带证据引用的结构化回答。
4. 西蒙组块理论:知识分解
赫伯特·西蒙的组块理论认为专业知识涉及识别信息中的有意义模式,将单个元素分组为更大、更有意义的单元(组块)。HBrain 通过将文档分解为 13 种实体类型的结构化分类法来实现这一原理。
4.1 实体类型分类
| 类别 | 实体类型 | 认知角色 |
|---|---|---|
| 来源 | Document(文档) | 知识来源 |
| Image(图像) | 视觉证据 | |
| 主体 | Agent(主体) | 负责任实体 |
| Object(对象) | 被动实体 | |
| Concept(概念) | 抽象思想 | |
| 过程 | Event(事件) | 时间性发生 |
| Activity(活动) | 程序性序列 | |
| Rule(规则) | 判断逻辑 | |
| 测量 | Metric(指标) | 量化测量 |
| Time(时间) | 时间边界 | |
| 上下文 | Location(地点) | 空间上下文 |
| Statement(陈述) | 主张断言 | |
| 问题 | Issue(问题) | 异常检测 |
4.2 组块定义
知识组块:知识组块 由以下部分组成:
- (标签):简洁的名称
- (总结):费曼风格的解释
- (类型):13 种实体类型之一
组块完备性:当文档 中的每个语义重要概念都由至少一个组块 表示,且组块之间的关系捕获了文档的逻辑结构时,文档 被完全组块化。
4.3 关系类型权重
| 关系 | 语义含义 | 权重 |
|---|---|---|
| defines(定义) | 概念定义 | 1.00 |
| causes(导致) | 因果关系 | 0.95 |
| depends_on(依赖于) | 依赖关系 | 0.92 |
| requires(需要) | 先决条件 | 0.90 |
| mitigates(减轻) | 风险缓解 | 0.90 |
| contradicts(矛盾) | 逻辑冲突 | 0.90 |
| affects(影响) | 影响关系 | 0.85 |
| prohibits(禁止) | 禁止性规定 | 0.85 |
| permits(允许) | 许可性规定 | 0.82 |
| responsible_for(负责) | 责任归属 | 0.80 |
| performs(执行) | 执行操作 | 0.78 |
| uses(使用) | 使用关系 | 0.75 |
| creates(创建) | 创建关系 | 0.75 |
| contains(包含) | 包含关系 | 0.72 |
| belongs_to(属于) | 所有关系 | 0.72 |
| part_of(部分) | 组成关系 | 0.72 |
| measures(测量) | 测量关系 | 0.65 |
| attribute(属性) | 属性值 | 0.58 |
| evidence_for(作为证据) | 支持证据 | 0.55 |
| describes(描述) | 描述关系 | 0.45 |
| mentions(提及) | 偶然提及 | 0.35 |
| derived_from(派生) | 派生关系 | 0.30 |
4.4 弱关系剪枝
不可扩展关系:以下关系类型包含在检索结果中,但不会将激活传播到相邻节点:
mentions(提及)、describes(描述)、evidence_for(作为证据)、derived_from(派生)、attribute(属性)
这模拟了人类回忆偶然细节而不跟随这些弱关联的行为。
5. 费曼总结:自我解释的知识
理查德·费曼的学习方法强调用简单、清晰的语言解释复杂思想,作为真正理解的测试。HBrain 通过专门的抽取提示来实现这一原理,为每个实体生成"费曼总结"。
5.1 总结生成原则
每个费曼总结必须回答四个问题:
- 是什么?定义和本质
- 为什么重要?角色和意义
- 如何关联?与其他实体的连接
- 如何使用?如何用于判断或决策
5.2 类型特定的总结模板
| 实体类型 | 费曼总结模板 |
|---|---|
| Agent(主体) | "此主体负责[职责],在流程中扮演[角色],可用于确定谁应该做什么以及谁应该对什么负责。" |
| Rule(规则) | 包含 rule_type、modality、condition、constraint、judgement 字段的结构化 JSON |
| Metric(指标) | "此指标测量[测量内容],阈值为[值],单位为[单位],用于确定[目标]是否满足要求。" |
5.3 规则实体作为判断逻辑
HBrain 费曼总结的一个关键创新是对规则实体的处理。与生成自然语言摘要不同,规则被编码为结构化的判断逻辑:
{
"rule_type": "requirement",
"modality": "must",
"scope": {
"domain": "质量管理",
"subject": "质量部门",
"action": "出货检验",
"object": "成品"
},
"condition": {"all": ["产品已准备好出货"]},
"constraint": {
"field": "检验结果",
"operator": "eq",
"value": "通过"
},
"judgement": {
"compliant_if": "检验报告显示通过",
"non_compliant_if": "检验报告显示不通过或缺失"
}
}
这种结构化表示支持自动化合规检查、合同审查和风险评估——这些是纯文本摘要无法实现的能力。
5.4 费曼总结 vs 传统摘要
注:传统抽取式摘要从源文本中选择关键句子。相比之下,费曼总结生成捕捉实体在知识网络中功能角色的新解释。"质量部门"的费曼总结不仅描述该部门,还解释如何用它来确定责任归属。
6. 加权关联检索
人类记忆检索遵循激活扩散模型:当一个概念被激活时,激活通过联想链接传播到相关概念,强度随距离衰减。
6.1 激活分数公式
其中:
- :从种子实体到目标实体的所有路径集合
- :第 条关系的权重
- :跳数衰减因子
跳数衰减效果:
| 深度 | 保留强度 |
|---|---|
| 0(直接) | 100% |
| 1 跳 | 70% |
| 2 跳 | 49% |
| 3 跳 | 34% |
6.2 检索算法
1. 初始化种子实体分数为 1.0
2. 将种子添加到队列
3. 当队列非空时:
a. 弹出深度 d 的实体 e,分数 A
b. 如果 d >= 3:继续(最大深度)
c. 对于每个通过关系 r、权重 w 的相邻实体 e':
- 计算 A' = A * w(r) * 0.7
- 如果 e' 不在分数中或 A' > 分数[e']:
- 更新分数[e'] = A'
- 如果 e' 未访问且 r 可扩展:
- 以分数 A' 将 e' 添加到队列,深度 d+1
4. 返回按分数排序的前 20 个实体
6.3 边缘权重分类
| 类别 | 权重范围 | 关系 |
|---|---|---|
| 强关系 | ≥ 0.80 | defines, causes, depends_on, requires, mitigates, contradicts |
| 中等关系 | 0.60–0.79 | affects, prohibits, performs, uses, creates, contains, belongs_to, part_of |
| 弱关系 | < 0.60 | measures, attribute, evidence_for, describes, mentions, derived_from |
6.4 多种子聚合
当多个种子实体匹配查询时,它们的激活被聚合:
这模拟了人类整合来自多个来源的信息,保留最强关联的行为。
7. 多层级证据分级
人类推理偏好第一手证据而非二手解释。HBrain 通过三级证据分级系统实现这一原则。
7.1 证据级别
| 级别 | 触发条件 | 描述 |
|---|---|---|
| 原文 | 文档 < 5000 字符 | 整个文档作为证据 |
| 段落 | 文档 ≥ 5000 字符 | 匹配的段落(最多 10 个) |
| 摘要 | 无文档证据 | 实体的费曼总结作为后备 |
7.2 按文档优先级跟踪
证据优先级:对于每个文档,如果已从任何实体收集了原文或段落证据,则抑制引用同一文档的其他实体的摘要证据。
这防止了冗余证据:如果文档 A 的原文已为实体 X 检索,我们不会也将实体 Y 的文档 A 摘要包含在内,因为第一手来源已经可用。
7.3 基于 LLM 的证据过滤
- 相关性标准:证据是否直接解决查询的主题?
- 保守方法:倾向于保留边缘证据而非丢失有用信息。
- 后备行为:如果过滤返回空列表,保留所有证据。
8. 抽取质量评估
8.1 评估流水线
- 格式验证 — 检查所有必填字段、实体类型、关系类型
- LLM 评分 — 在 0-1 范围内评估每个实体和关系
- 过滤 — 拒绝分数 < 0.7 的实体和关系
- 重试机制 — 如果拒绝率 > 50%,重试抽取(最多 2 次)
8.2 置信度传播
# 实体置信度
entity.confidence = evaluation_score(entity)
# 关系置信度 = 最小端点置信度
relation.confidence = min(confidence(src), confidence(tgt))
9. 评估结果
9.1 抽取质量对比
| 实体 | 传统抽取 | 费曼抽取 |
|---|---|---|
| 质量部门 | "负责质量检验和质量管理的部门" | "此主体负责产品质检和监督,在流程中扮演审计员角色,可用于确定谁应该对质量问题负责。" |
| 出货检验规则 | "产品出货前必须通过检验" | {rule_type: requirement, modality: must, constraint: 检验结果 = 通过, ...} |
9.2 系统性能
| 指标 | 数值 |
|---|---|
| 抽取时间 | 每文档 15–30 秒 |
| 检索时间 | 每查询 2–5 秒 |
| 最大实体数测试 | 10,000+ |
| 最大关系数测试 | 50,000+ |
10. 结论与未来工作
10.1 总结
HBrain 通过整合西蒙的组块理论和费曼学习法来模拟人脑语义记忆:
- 认知知识分解 — 13 种实体类型,涵盖从具体主体到抽象规则的知识全谱
- 费曼风格总结 — 为推理优化的自我解释表示
- 加权关联检索 — 带校准边缘权重的激活扩散
- 多层级证据分级 — 按文档优先级的跟踪
10.2 未来方向
- 自适应权重学习 — 从用户反馈学习边缘权重
- 时序推理 — 处理事件序列和时序关系
- 多模态整合 — 整合图像、表格等文本以外的模态
- 协作知识构建 — 允许多个用户贡献和完善知识图谱
- 可解释检索 — 提供显示激活如何从查询传播到回答的显式推理路径
HBrain 证明将知识图谱构建扎根于认知学习理论可以产生不仅技术有效而且与人类理解和检索信息的方式一致的 systems。
参考文献
- Anderson, J. R. (1983). The Architecture of Cognition. Harvard University Press.
- Banko, M. et al. (2007). Open information extraction from the web. IJCAI.
- Brown, T. B. et al. (2020). Language models are few-shot learners. NeurIPS.
- Chase, W. G., & Simon, H. A. (1973). Perception in chess. Cognitive Psychology, 4(1).
- Chi, M. T. et al. (1989). Self-explanations: How students study and use examples. Cognitive Science, 13(2).
- Collins, A. M., & Quillian, M. R. (1969). Retrieval time from semantic memory. Journal of Verbal Learning and Verbal Behavior, 8(2).
- Crestani, F. (1997). Application of spreading activation techniques in information retrieval. Artificial Intelligence Review, 11(6).
- Feynman, R. P. (1988). The Pleasure of Finding Things Out. Perseus Publishing.
- Lewis, P. et al. (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. NeurIPS.
- Miller, G. A. (1956). The magical number seven, plus or minus two. Psychological Review, 63(2).
- Pan, S. et al. (2024). Unifying large language models and knowledge graphs. IEEE TKDE, 36(7).
- Simon, H. A. (1974). How big is a chunk? Science, 183(4124).
- Wei, X. et al. (2023). Zero-shot information extraction via chatting with ChatGPT. arXiv:2302.10205.