FastDatasets 正式上线 PyPI:一行安装,立即生成训练数据集!

147 阅读2分钟

🎉 FastDatasets 正式上线 PyPI:一行安装,立即生成训练数据集!

大家好!FastDatasets 现已发布到 PyPI(发行名:fastdatasets-llm)。现在你可以通过一行 pip install 立即使用,无需克隆仓库或复杂配置。


请添加图片描述

🚀 为什么上 PyPI?

  • 一行安装,开箱即用
  • 更稳定的依赖管理与发布节奏
  • 与现有项目/脚本无缝集成(CLI + Python API)

📦 安装

pip install fastdatasets-llm
# 可选能力:
# pip install 'fastdatasets-llm[web]'   # Web/UI/API
# pip install 'fastdatasets-llm[doc]'   # 更佳文档解析(textract)
# pip install 'fastdatasets-llm[all]'   # 全部可选能力

AI写代码bash
12345
  • 说明:发行名为 fastdatasets-llm,但导入名仍然是 fastdatasets,CLI 名称为 fastdatasets

🔑 配置 LLM(两种方式,可混用)

  1. 环境变量(推荐)
export LLM_API_KEY="sk-..."
export LLM_API_BASE="https://api.example.com/v1"
export LLM_MODEL="your-model"

AI写代码bash
123

2. 直接传参(覆盖环境变量)

  • 在 Python 调用中通过 api_keyapi_basemodel_name 传入

🧪 一分钟上手

A. 命令行(CLI)

# 生成数据集到 ./output,支持多格式与 JSONL 输出
fastdatasets generate ./data/sample.txt -o ./output -f alpaca,sharegpt --file-format jsonl

AI写代码bash
12

B. Python API(高层封装,隐藏 asyncio)

from fastdatasets import generate_dataset_to_dir

dataset = generate_dataset_to_dir(
  inputs=["./data/sample.txt"],
  output_dir="./output",
  formats=["alpaca", "sharegpt"],
  file_format="jsonl",
  chunk_size=1000,
  chunk_overlap=200,
  enable_cot=False,
  max_llm_concurrency=5,
  # 覆盖 .env:api_key="sk-...", api_base="https://api.example.com/v1", model_name="your-model"
)
print(f"Generated items: {len(dataset)}")

AI写代码python
运行
1234567891011121314

✨ 能力一览

  • 文档解析与分块:支持 txt/md(可选安装 doc extras 以解析 pdf/docx)
  • 问答生成:自动生成高质量 QA,支持并发与重试
  • 多格式导出:Alpaca / ShareGPT,JSON/JSONL
  • 思维链(COT):可选启用
  • 知识蒸馏:脚本与 API 支持(参考仓库 docs)

❓ 常见问题

  • 只安装核心包足够吗?

    • 仅处理 txt/md 足够;解析 pdf/docx 建议安装 fastdatasets-llm[doc]
  • CLI 找不到?

    • 确认安装成功,命令名是 fastdatasets
  • LLM 连接失败?

    • 检查 LLM_API_KEY/LLM_API_BASE/LLM_MODEL 是否正确,去掉尾部空白与换行。

🧩 适用场景

  • 快速把项目文档/知识库转成训练数据集
  • 构建小规模实验数据,验证微调链路
  • 批量处理目录下多文件并导出标准训练格式

⭐ 行动号召

  • 现在就用 PyPI 版本试试:
pip install fastdatasets-llm
fastdatasets generate ./data -o ./output -f alpaca

AI写代码bash
12
  • 如果觉得好用,请到 GitHub 点个 Star,帮助更多人看到它!

🔗 链接