FastDatasets 正式上线 PyPI：一行安装，立即生成训练数据集！🎉 FastDatasets 正式上线 P

🎉 FastDatasets 正式上线 PyPI：一行安装，立即生成训练数据集！

大家好！FastDatasets 现已发布到 PyPI（发行名：fastdatasets-llm）。现在你可以通过一行 pip install 立即使用，无需克隆仓库或复杂配置。

请添加图片描述

🚀 为什么上 PyPI？

一行安装，开箱即用
更稳定的依赖管理与发布节奏
与现有项目/脚本无缝集成（CLI + Python API）

📦 安装

pip install fastdatasets-llm
# 可选能力：
# pip install 'fastdatasets-llm[web]'   # Web/UI/API
# pip install 'fastdatasets-llm[doc]'   # 更佳文档解析（textract）
# pip install 'fastdatasets-llm[all]'   # 全部可选能力

AI写代码bash
12345

说明：发行名为 fastdatasets-llm，但导入名仍然是 fastdatasets，CLI 名称为 fastdatasets。

🔑 配置 LLM（两种方式，可混用）

环境变量（推荐）

export LLM_API_KEY="sk-..."
export LLM_API_BASE="https://api.example.com/v1"
export LLM_MODEL="your-model"

AI写代码bash
123

2. 直接传参（覆盖环境变量）

在 Python 调用中通过 api_key、api_base、model_name 传入

🧪 一分钟上手

A. 命令行（CLI）

# 生成数据集到 ./output，支持多格式与 JSONL 输出
fastdatasets generate ./data/sample.txt -o ./output -f alpaca,sharegpt --file-format jsonl

AI写代码bash
12

B. Python API（高层封装，隐藏 asyncio）

from fastdatasets import generate_dataset_to_dir

dataset = generate_dataset_to_dir(
  inputs=["./data/sample.txt"],
  output_dir="./output",
  formats=["alpaca", "sharegpt"],
  file_format="jsonl",
  chunk_size=1000,
  chunk_overlap=200,
  enable_cot=False,
  max_llm_concurrency=5,
  # 覆盖 .env：api_key="sk-...", api_base="https://api.example.com/v1", model_name="your-model"
)
print(f"Generated items: {len(dataset)}")

AI写代码python
运行
1234567891011121314

✨ 能力一览

文档解析与分块：支持 txt/md（可选安装 doc extras 以解析 pdf/docx）
问答生成：自动生成高质量 QA，支持并发与重试
多格式导出：Alpaca / ShareGPT，JSON/JSONL
思维链（COT）：可选启用
知识蒸馏：脚本与 API 支持（参考仓库 docs）

❓ 常见问题

只安装核心包足够吗？
- 仅处理 txt/md 足够；解析 pdf/docx 建议安装 fastdatasets-llm[doc]。
CLI 找不到？
- 确认安装成功，命令名是 fastdatasets。
LLM 连接失败？
- 检查 LLM_API_KEY/LLM_API_BASE/LLM_MODEL 是否正确，去掉尾部空白与换行。

🧩 适用场景

快速把项目文档/知识库转成训练数据集
构建小规模实验数据，验证微调链路
批量处理目录下多文件并导出标准训练格式

⭐ 行动号召

现在就用 PyPI 版本试试：

pip install fastdatasets-llm
fastdatasets generate ./data -o ./output -f alpaca

AI写代码bash
12

如果觉得好用，请到 GitHub 点个 Star，帮助更多人看到它！

🔗 链接

GitHub：ZhuLinsen/FastDatasets
PyPI（发行名）：fastdatasets-llm
Spaces 在线体验：FastDatasets on Hugging Face Spaces