SkillForge：把散落的项目文档，变成AI可用的技能包问题来了我和团队做Agent开发的时候，遇到一个很现实的问

你有没有过这样的经历：项目文件夹里堆满了设计文档、API笔记、SOP流程、研究报告……想给团队配个AI助手，却发现这些知识散落各处，根本没法直接喂给AI？

问题来了

我和团队做Agent开发的时候，遇到一个很现实的问题：

我们积累了很多知识，但它们不是AI能直接用的形式。

文档散落在不同文件夹
格式五花八门（md、pdf、docx、txt……）
信息密度低，AI读了半天抓不到重点
手动整理成技能包？太费时间了

于是我们想：能不能有个工具，自动把这些文档"蒸馏"成AI技能包？

SkillForge 是什么

SkillForge 是一个本地优先的AI技能包蒸馏工作台。

简单说，它做的事情是：

散落的项目文档 → 结构化证据提取 → 能力聚类 → 编译成技能包

输出的技能包包含：

SKILL.md - 技能主文档
references/ - 参考资料
scripts/ - 执行脚本
assets/ - 资源文件

这个格式可以直接被Agent框架（如LangChain）或平台（如扣子Coze）使用。

核心功能

1. 多格式文档解析

支持常见文档格式：.md、.txt、.pdf、.docx、.xlsx

扫描本地文件夹，自动识别并解析。

2. 证据提取

从文档中提取与工作流相关的关键内容和任务信号。

比如从API文档中提取接口定义，从SOP中提取操作步骤。

3. 能力聚类

将提取的证据分组为可复用的能力区域。

不是简单的文件分类，而是理解内容的语义关联。

4. 可视化工作台

Web UI展示完整的pipeline进度，实时预览输出结果。

支持导出管理，覆盖审查流程。

技术架构

inventory（库存扫描）
    ↓
parsing（文档解析）
    ↓
extraction（证据提取）
    ↓
distillation（能力聚类）
    ↓
compiler（技能编译）
    ↓
exporter（导出管理）

技术栈：

Python 3.11+
FastAPI + SQLite
Pydantic v2 数据验证
多AI后端支持（OpenAI / Azure / Anthropic）

实际场景

场景1：SOP流程提取

公司有大量操作手册，散落在各个部门。用SkillForge扫描这些文档，自动提取出可复用的操作流程技能。

Agent拿到这个技能包，就能指导新人完成操作。

场景2：研究文档整理

研究团队的资料文件夹，包含论文笔记、实验记录、分析报告。

SkillForge把这些整理成结构化的分析工作流技能，新成员可以快速接手。

场景3：API文档整合

前后端开发过程中积累的API文档和实现笔记，整合成一个"API集成"技能包。

Agent可以根据这个技能包，辅助完成API对接工作。

本地优先

一个重要设计原则：本地优先

无需云端部署，本地运行
数据不出本地，隐私安全
无外部模型依赖也能完成文档解析和pipeline预览

当然，如果你需要更强的AI能力，可以配置OpenAI/Azure等后端。

开源地址

GitHub: github.com/wwyharry/Sk…

协议：Apache 2.0

当前状态

项目处于 Alpha阶段，核心功能框架已完成：

✅ 多格式文档解析
✅ 可视化工作台
✅ 技能包编译输出
✅ 本地优先部署

还在完善中的：

🔄 AI驱动的能力聚类（目前是启发式实现）
🔄 自动化测试覆盖
🔄 OCR支持（扫描版PDF）

欢迎试用反馈

如果你也有类似的痛点：

项目文档太多太散
想给团队配AI助手但知识无法复用
手动整理技能包太费时间

欢迎试用 SkillForge，反馈你的使用场景和改进建议。

我们相信：好的工具应该让知识流动起来，而不是沉睡在文件夹里。

相关链接

GitHub: github.com/wwyharry/Sk…
问题反馈: github.com/wwyharry/Sk…
作者: Harry（Agent领域探索者）