🎉 FastDatasets 正式上线 PyPI:一行安装,立即生成训练数据集!
大家好!FastDatasets 现已发布到 PyPI(发行名:fastdatasets-llm)。现在你可以通过一行 pip install 立即使用,无需克隆仓库或复杂配置。
🚀 为什么上 PyPI?
- 一行安装,开箱即用
- 更稳定的依赖管理与发布节奏
- 与现有项目/脚本无缝集成(CLI + Python API)
📦 安装
pip install fastdatasets-llm
# 可选能力:
# pip install 'fastdatasets-llm[web]' # Web/UI/API
# pip install 'fastdatasets-llm[doc]' # 更佳文档解析(textract)
# pip install 'fastdatasets-llm[all]' # 全部可选能力
AI写代码bash
12345
- 说明:发行名为
fastdatasets-llm,但导入名仍然是fastdatasets,CLI 名称为fastdatasets。
🔑 配置 LLM(两种方式,可混用)
- 环境变量(推荐)
export LLM_API_KEY="sk-..."
export LLM_API_BASE="https://api.example.com/v1"
export LLM_MODEL="your-model"
AI写代码bash
123
2. 直接传参(覆盖环境变量)
- 在 Python 调用中通过
api_key、api_base、model_name传入
🧪 一分钟上手
A. 命令行(CLI)
# 生成数据集到 ./output,支持多格式与 JSONL 输出
fastdatasets generate ./data/sample.txt -o ./output -f alpaca,sharegpt --file-format jsonl
AI写代码bash
12
B. Python API(高层封装,隐藏 asyncio)
from fastdatasets import generate_dataset_to_dir
dataset = generate_dataset_to_dir(
inputs=["./data/sample.txt"],
output_dir="./output",
formats=["alpaca", "sharegpt"],
file_format="jsonl",
chunk_size=1000,
chunk_overlap=200,
enable_cot=False,
max_llm_concurrency=5,
# 覆盖 .env:api_key="sk-...", api_base="https://api.example.com/v1", model_name="your-model"
)
print(f"Generated items: {len(dataset)}")
AI写代码python
运行
1234567891011121314
✨ 能力一览
- 文档解析与分块:支持 txt/md(可选安装 doc extras 以解析 pdf/docx)
- 问答生成:自动生成高质量 QA,支持并发与重试
- 多格式导出:Alpaca / ShareGPT,JSON/JSONL
- 思维链(COT):可选启用
- 知识蒸馏:脚本与 API 支持(参考仓库 docs)
❓ 常见问题
-
只安装核心包足够吗?
- 仅处理 txt/md 足够;解析 pdf/docx 建议安装
fastdatasets-llm[doc]。
- 仅处理 txt/md 足够;解析 pdf/docx 建议安装
-
CLI 找不到?
- 确认安装成功,命令名是
fastdatasets。
- 确认安装成功,命令名是
-
LLM 连接失败?
- 检查
LLM_API_KEY/LLM_API_BASE/LLM_MODEL是否正确,去掉尾部空白与换行。
- 检查
🧩 适用场景
- 快速把项目文档/知识库转成训练数据集
- 构建小规模实验数据,验证微调链路
- 批量处理目录下多文件并导出标准训练格式
⭐ 行动号召
- 现在就用 PyPI 版本试试:
pip install fastdatasets-llm
fastdatasets generate ./data -o ./output -f alpaca
AI写代码bash
12
- 如果觉得好用,请到 GitHub 点个 Star,帮助更多人看到它!
🔗 链接
- GitHub:ZhuLinsen/FastDatasets
- PyPI(发行名):fastdatasets-llm
- Spaces 在线体验:FastDatasets on Hugging Face Spaces