SkillForge:把散落的项目文档,变成AI可用的技能包

0 阅读3分钟

你有没有过这样的经历:项目文件夹里堆满了设计文档、API笔记、SOP流程、研究报告……想给团队配个AI助手,却发现这些知识散落各处,根本没法直接喂给AI?

问题来了

我和团队做Agent开发的时候,遇到一个很现实的问题:

我们积累了很多知识,但它们不是AI能直接用的形式。

  • 文档散落在不同文件夹

  • 格式五花八门(md、pdf、docx、txt……)

  • 信息密度低,AI读了半天抓不到重点

  • 手动整理成技能包?太费时间了

于是我们想:能不能有个工具,自动把这些文档"蒸馏"成AI技能包?

SkillForge 是什么

SkillForge 是一个本地优先的AI技能包蒸馏工作台

简单说,它做的事情是:

散落的项目文档 → 结构化证据提取 → 能力聚类 → 编译成技能包

输出的技能包包含:

  • SKILL.md - 技能主文档

  • references/ - 参考资料

  • scripts/ - 执行脚本

  • assets/ - 资源文件

这个格式可以直接被Agent框架(如LangChain)或平台(如扣子Coze)使用。

核心功能

1. 多格式文档解析

支持常见文档格式:.md.txt.pdf.docx.xlsx

扫描本地文件夹,自动识别并解析。

2. 证据提取

从文档中提取与工作流相关的关键内容和任务信号。

比如从API文档中提取接口定义,从SOP中提取操作步骤。

3. 能力聚类

将提取的证据分组为可复用的能力区域。

不是简单的文件分类,而是理解内容的语义关联。

4. 可视化工作台

Web UI展示完整的pipeline进度,实时预览输出结果。

支持导出管理,覆盖审查流程。 ScreenShot_2026-04-12_232313_910.png

d563512473a2539a1ae612f04205a6c9.png

84b0e0ca60d3ed6d20cbdbedf9383290.png

技术架构

inventory(库存扫描)
    ↓
parsing(文档解析)
    ↓
extraction(证据提取)
    ↓
distillation(能力聚类)
    ↓
compiler(技能编译)
    ↓
exporter(导出管理)

技术栈:

  • Python 3.11+

  • FastAPI + SQLite

  • Pydantic v2 数据验证

  • 多AI后端支持(OpenAI / Azure / Anthropic)

实际场景

场景1:SOP流程提取

公司有大量操作手册,散落在各个部门。用SkillForge扫描这些文档,自动提取出可复用的操作流程技能。

Agent拿到这个技能包,就能指导新人完成操作。

场景2:研究文档整理

研究团队的资料文件夹,包含论文笔记、实验记录、分析报告。

SkillForge把这些整理成结构化的分析工作流技能,新成员可以快速接手。

场景3:API文档整合

前后端开发过程中积累的API文档和实现笔记,整合成一个"API集成"技能包。

Agent可以根据这个技能包,辅助完成API对接工作。

本地优先

一个重要设计原则:本地优先

  • 无需云端部署,本地运行

  • 数据不出本地,隐私安全

  • 无外部模型依赖也能完成文档解析和pipeline预览

当然,如果你需要更强的AI能力,可以配置OpenAI/Azure等后端。

开源地址

GitHub: github.com/wwyharry/Sk…

协议:Apache 2.0

当前状态

项目处于 Alpha阶段,核心功能框架已完成:

  • ✅ 多格式文档解析

  • ✅ 可视化工作台

  • ✅ 技能包编译输出

  • ✅ 本地优先部署

还在完善中的:

  • 🔄 AI驱动的能力聚类(目前是启发式实现)

  • 🔄 自动化测试覆盖

  • 🔄 OCR支持(扫描版PDF)

欢迎试用反馈

如果你也有类似的痛点:

  • 项目文档太多太散

  • 想给团队配AI助手但知识无法复用

  • 手动整理技能包太费时间

欢迎试用 SkillForge,反馈你的使用场景和改进建议。

我们相信:好的工具应该让知识流动起来,而不是沉睡在文件夹里。

相关链接