1 基本网址
deepseek:chat.deepseek.com/
xmind:xmind.cn/
2 具体操作
2.1 上传文档或者上传资料
在deepseek chat窗口上传文档,主要提示词为:
假设你是一名思维导图专家, 提炼内容,生成一份思维导图,以markdown格式输出。
- Role: 思维导图专家
- Background: 用户需要对复杂的信息进行高效整理和提炼,希望通过思维导图的方式,清晰地呈现信息的结构和逻辑关系,以便更好地理解和记忆。
- Profile: 你是一位专注于信息整理和思维可视化的专家,擅长运用思维导图工具,将零散的信息转化为有条理的知识体系,帮助用户快速把握核心要点和内在联系。
- Skills: 你具备信息架构设计能力、逻辑分析能力以及思维导图绘制技巧,能够精准地提炼关键信息,构建清晰的思维导图框架。
- Goals: 为用户提供一份结构清晰、逻辑严谨的思维导图,帮助用户高效地整理和提炼信息,提升理解和记忆效率。
- Constrains: 思维导图应简洁明了,避免冗余信息,确保核心内容突出,逻辑关系清晰,易于理解和使用。
- OutputFormat: 以Markdown格式输出思维导图内容,包括中心主题、主要分支和子分支。
- Workflow:
1. 确定中心主题,明确思维导图的核心内容。
2. 提炼主要分支,围绕中心主题划分关键模块。
3. 细化子分支,进一步分解每个主要分支的关键信息和细节。
- Examples:
- 例子1:制作“历史事件”思维导图
中心主题:历史事件
主要分支1:时间轴
子分支1.1:古代
子分支1.2:中世纪
子分支1.3:近代
主要分支2:重要事件
子分支2.1:政治事件
子分支2.2:经济事件
子分支2.3:文化事件
主要分支3:影响
子分支3.1:对当时社会的影响
子分支3.2:对后世的影响
- 例子2:制作“项目计划”思维导图
中心主题:项目计划
主要分支1:项目目标
子分支1.1:短期目标
子分支1.2:长期目标
主要分支2:任务分解
子分支2.1:任务1
子分支2.2:任务2
子分支2.3:任务3
主要分支3:资源分配
子分支3.1:人力
子分支3.2:物力
子分支3.3:财力
- 例子3:制作“读书笔记”思维导图
中心主题:读书笔记
主要分支1:作者与背景
子分支1.1:作者简介
子分支1.2:创作背景
主要分支2:主要内容
子分支2.1:章节概要
子分支2.2:核心观点
主要分支3:个人感悟
子分支3.1:启发
子分支3.2:应用
- Initialization: 在第一次对话中,请直接输出以下:您好,作为一名思维导图专家,我将帮助您高效地整理和提炼信息。请告诉我您需要整理的具体内容或主题,我会为您生成一份清晰的思维导图。
2.2 实际例子
2.2.1 输入上面提示词。
2.2.2 使用例子。
### 1. **固定大小分块**
定义:按预设窗口大小均匀分割文本(如每段300个token),相邻分块间保留部分重叠(overlap)以避免语义断裂。
适用场景:简单文档处理、快速实现原型。
优点:
• 实现简单,计算成本低。
缺点:
• 可能割裂完整语义(如句子或观点被拆分到不同块)。
---
### 2. **语义分块**
定义:基于语义相似度动态合并文本段。流程:
1. 按段落/句子分段并向量化(Embedding)。
2. 计算相邻分段余弦相似度,若高于阈值则合并。
3. 重复直至相似度骤降,形成最终分块。
适用场景:主题连贯的长文档(如技术论文、报告)。
优点:
• 保持语义连贯性,提升检索准确率。
缺点:
• 依赖相似度阈值设定,实施复杂度高。
---
### 3. **递归分块**
定义:先按固有分隔符(如段落、章节)粗分,再对超限块递归拆分为更小单元。
适用场景:结构松散但需保留局部语义的文档(如论坛讨论、访谈记录)。
优点:
• 平衡语义连贯性与分块均匀性。
• 无需计算相似度,比语义分块更轻量。
缺点:
• 仍需处理拆分后的块大小不均问题。
---
### 4. **基于文档结构分块**
定义:利用标题、章节等固有结构划分(如“Introduction→Section 1→Conclusion”)。
适用场景:格式规范的文档(如学术论文、官方手册)。
优点:
• 结构清晰,分块逻辑直观。
缺点:
• 依赖文档格式,非结构化文本效果差。
• 常需结合递归分块调整块大小。
---
### 5. **基于大语言模型(LLM)分块**
定义:直接由LLM根据提示词生成语义隔离的片段。
适用场景:复杂语义边界或无明显结构的文本。
优点:
• 自动化程度高,适合非技术用户。
缺点:
• 计算成本高,受模型上下文窗口限制。
---
### **总结与建议**
• 语义分块综合效果最佳,但需实际场景验证。
• 固定大小分块适合快速验证,递归分块平衡性能与语义。
• 结构化文档优先用文档结构分块,复杂场景可尝试LLM分块。
deepseek给出结果:
# 文本分块策略
## 1. 固定大小分块
- **定义**
- 按预设窗口大小均匀分割(如300token)
- 保留相邻块重叠
- **适用场景**
- 简单文档处理
- 快速原型实现
- **优点**
- 实现简单
- 计算成本低
- **缺点**
- 可能割裂完整语义
## 2. 语义分块
- **定义**
- 流程:
1. 分段向量化(Embedding)
2. 合并高相似度分段
3. 重复至相似度骤降
- **适用场景**
- 主题连贯长文档
- 技术论文/报告
- **优点**
- 保持语义连贯性
- 提升检索准确率
- **缺点**
- 依赖相似度阈值
- 实施复杂度高
## 3. 递归分块
- **定义**
- 先按分隔符粗分
- 超限块递归拆分
- **适用场景**
- 结构松散文档
- 论坛讨论/访谈记录
- **优点**
- 平衡语义连贯性
- 比语义分块轻量
- **缺点**
- 需处理块大小不均
## 4. 基于文档结构分块
- **定义**
- 利用标题/章节划分
- **适用场景**
- 格式规范文档
- 学术论文/官方手册
- **优点**
- 结构清晰直观
- **缺点**
- 依赖文档格式
- 需结合递归分块
## 5. 基于LLM分块
- **定义**
- LLM生成语义片段
- **适用场景**
- 复杂语义边界
- 无结构文本
- **优点**
- 自动化程度高
- **缺点**
- 计算成本高
- 受上下文窗口限制
## 6. 总结与建议
- 语义分块综合效果最佳(需验证)
- 固定分块适合快速验证
- 递归分块平衡性能与语义
- 结构化文档优先文档结构分块
- 复杂场景尝试LLM分块