你有没有过这样的经历:项目文件夹里堆满了设计文档、API笔记、SOP流程、研究报告……想给团队配个AI助手,却发现这些知识散落各处,根本没法直接喂给AI?
问题来了
我和团队做Agent开发的时候,遇到一个很现实的问题:
我们积累了很多知识,但它们不是AI能直接用的形式。
-
文档散落在不同文件夹
-
格式五花八门(md、pdf、docx、txt……)
-
信息密度低,AI读了半天抓不到重点
-
手动整理成技能包?太费时间了
于是我们想:能不能有个工具,自动把这些文档"蒸馏"成AI技能包?
SkillForge 是什么
SkillForge 是一个本地优先的AI技能包蒸馏工作台。
简单说,它做的事情是:
散落的项目文档 → 结构化证据提取 → 能力聚类 → 编译成技能包
输出的技能包包含:
-
SKILL.md- 技能主文档 -
references/- 参考资料 -
scripts/- 执行脚本 -
assets/- 资源文件
这个格式可以直接被Agent框架(如LangChain)或平台(如扣子Coze)使用。
核心功能
1. 多格式文档解析
支持常见文档格式:.md、.txt、.pdf、.docx、.xlsx
扫描本地文件夹,自动识别并解析。
2. 证据提取
从文档中提取与工作流相关的关键内容和任务信号。
比如从API文档中提取接口定义,从SOP中提取操作步骤。
3. 能力聚类
将提取的证据分组为可复用的能力区域。
不是简单的文件分类,而是理解内容的语义关联。
4. 可视化工作台
Web UI展示完整的pipeline进度,实时预览输出结果。
支持导出管理,覆盖审查流程。
技术架构
inventory(库存扫描)
↓
parsing(文档解析)
↓
extraction(证据提取)
↓
distillation(能力聚类)
↓
compiler(技能编译)
↓
exporter(导出管理)
技术栈:
-
Python 3.11+
-
FastAPI + SQLite
-
Pydantic v2 数据验证
-
多AI后端支持(OpenAI / Azure / Anthropic)
实际场景
场景1:SOP流程提取
公司有大量操作手册,散落在各个部门。用SkillForge扫描这些文档,自动提取出可复用的操作流程技能。
Agent拿到这个技能包,就能指导新人完成操作。
场景2:研究文档整理
研究团队的资料文件夹,包含论文笔记、实验记录、分析报告。
SkillForge把这些整理成结构化的分析工作流技能,新成员可以快速接手。
场景3:API文档整合
前后端开发过程中积累的API文档和实现笔记,整合成一个"API集成"技能包。
Agent可以根据这个技能包,辅助完成API对接工作。
本地优先
一个重要设计原则:本地优先
-
无需云端部署,本地运行
-
数据不出本地,隐私安全
-
无外部模型依赖也能完成文档解析和pipeline预览
当然,如果你需要更强的AI能力,可以配置OpenAI/Azure等后端。
开源地址
GitHub: github.com/wwyharry/Sk…
协议:Apache 2.0
当前状态
项目处于 Alpha阶段,核心功能框架已完成:
-
✅ 多格式文档解析
-
✅ 可视化工作台
-
✅ 技能包编译输出
-
✅ 本地优先部署
还在完善中的:
-
🔄 AI驱动的能力聚类(目前是启发式实现)
-
🔄 自动化测试覆盖
-
🔄 OCR支持(扫描版PDF)
欢迎试用反馈
如果你也有类似的痛点:
-
项目文档太多太散
-
想给团队配AI助手但知识无法复用
-
手动整理技能包太费时间
欢迎试用 SkillForge,反馈你的使用场景和改进建议。
我们相信:好的工具应该让知识流动起来,而不是沉睡在文件夹里。
相关链接
- GitHub: github.com/wwyharry/Sk…
- 问题反馈: github.com/wwyharry/Sk…
- 作者: Harry(Agent领域探索者)