指令调优数据集就像是模型的“速成班”,给它明确的指导,让它在各种任务中都能快速上手,成为我们生活中的得力助手。
1、个性化指导:
首先,它就像是给模型的一对一辅导,我告诉模型,“嘿,这里有个任务,你需要这么做。” 然后给它展示正确的做法。这种数据集就是由这样的“任务和正确答案”组成的,帮助模型学习如何按照指令行动。
2、全能选手:
这种数据集覆盖了各种各样的任务,比如写作文、回答问题、甚至聊天。这意味着模型经过这样的调优后,就能在多种场景下都能表现得像个真正全能选手。
3、快速学习:
最后,指令调优数据集能让模型学得更快。就像是给了模型一个加速器,让它在短时间内就能掌握很多新技能。这样,我们就能更高效地利用模型,更快地解决实际问题。
指令类别:
1、Reasoning:推理任务,要求模型进行逻辑推理和推断。
2、Math:数学问题,涉及计算和数学逻辑。
3、Brainstorming:头脑风暴,生成创意和解决方案。
4、ClosedQA:封闭式问答,问题有明确的答案。
5、OpenQA:开放式问答,问题的答案可能不唯一,需要更广泛的知识。
6、Code:编程任务,涉及代码生成和理解。
7、Extraction:信息提取,从文本中提取特定信息。
8、Generation:文本生成,创建全新的文本内容。
9、Rewrite:文本改写,对现有文本进行重述或改编。
10、Summarization:文本摘要,对文本内容进行压缩和概括。
11、SocialNorms:社会规范,涉及遵循社会规则和道德标准的任务。
12、Translation:翻译任务,将文本从一种语言翻译成另一种语言。
13、Role-playing:角色扮演,模型需要扮演特定角色来完成任务。
通用指令微调数据集:
1、由人类创建的数据集,根据特定要求构建指令。
2、模型构建数据集(MC):
- 通过网络爬虫获取真实的人类问答数据。
- 使用自我指导的方法生成指令数据。
- 人类与LLM之间的交互数据。
3、现有数据集的收集与改进 (CI):
- 多个LLM代理之间的对话数据。
- 对现有数据集进行收集和改进。
结合多种方法创建的数据集,包括HG&CI、HG&MC、CI&MC、HG&CI&MC。
特定领域指令微调数据集:
1、Medical:医疗领域。
2、Code:编程领域。
3、Legal:法律领域。
4、Mathematics:数学领域。
5、Education:教育领域。
6、其他
11/15新增
数据集:Leopard-Instruct|多模态数据集|指令微调数据集
-
创建时间:2024-11-08
-
数据集介绍:Leopard-Instruct数据集是由腾讯AI实验室的研究团队于2024年创建的,旨在解决多模态任务中的指令遵循问题。该数据集包含925,000个实例,其中739,000个专门用于文本丰富、多图像场景。Leopard-Instruct的构建旨在支持Leopard-LLaVA和Leopard-Idefics2模型的训练,这些模型在多模态理解和生成任务中表现出色。通过整合多种数据源,如arxiv、chartgemma和webvision等,该数据集为研究者提供了一个全面的资源,以推动多模态学习领域的发展。
10/28新增
数据集:Infinity-MM|多模态数据数据集|模型训练数据集
- 创建时间:2024-10-15
- 链接地址:Infinity-MM|多模态数据数据集|模型训练数据集
- 数据集介绍:Infinity-MM 是一个大规模的多模态指令数据集,包含数千万个样本。通过质量过滤和去重,数据集具有高质量和多样性。数据集分为四个阶段,每个阶段包含不同类型的数据,如图像-字幕数据、通用视觉指令数据、选择性视觉指令数据和 GPT4 与合成数据。数据集的语言包括英语和中文,并且来自多个平台。数据集与 Aquila-VL-2B 模型一起使用,该模型在相同规模的模型中达到了最先进的性能。
10/06新增
数据集:OpenMathInstruct-2|数学问题生成数据集|指令调优
-
创建时间:2024-09-29
-
数据集介绍:OpenMathInstruct-2是一个数学指令调优数据集,包含1400万个问题-解决方案对。这些数据对是通过使用Llama3.1-405B-Instruct模型生成的。数据集的构建基于GSM8K和MATH训练集的问题,通过解决方案增强和问题-解决方案增强两种方式生成新的问题和解决方案。数据集包含四个主要字段:问题、生成的解决方案、预期答案和问题来源。预期答案对于训练集中的问题是从数据集中提供的真实答案,而对于增强的问题则是通过多数投票得出的答案。数据集还包括一个污染探索器,用于查找与GSM8K、MATH、AMC 2023、AIME 2024和Omni-MATH测试集问题相似的问题。此外,还发布了一系列基于此数据集训练的OpenMath2模型,并提供了代码、模型和数据集的链接,以及如何重现结果的详细说明。
数据集:LLM Fine-Tuning Dataset - Question Answering|语言模型微调数据集|自然语言处理
- 发布时间:2024-09-27
- 链接地址:LLM Fine-Tuning Dataset - Question Answering|语言模型微调数据集|自然语言处理数据集
- 数据集介绍:该数据集包含超过400万条记录,涵盖32种语言,专为语言模型训练设计。它包括来自3个模型的日志和响应对,旨在通过指令微调来提高各种自然语言处理任务的性能。
数据集:MURI-IT|多语言处理数据集|指令调优
-
发布时间:2024-09-19
-
数据集介绍:MURI-IT 是一个多语言指令调优数据集,包含超过220万条指令-输出对,涵盖200种语言。该数据集通过多语言逆向指令生成,确保了文化与语言的细微差别得以保留,避免了直接翻译带来的常见问题。
数据集:distilabel-reflection-tuning|AI模型调优数据集|复杂概念生成数据集
- 发布时间:2024-09-06
- 链接地址:distilabel-reflection-tuning|AI模型调优数据集|复杂概念生成数据集
- 数据集介绍:distilabel-reflection-tuning 数据集是使用 Distilabel 工具创建的合成数据集。它包含指令、模型名称和生成的输出示例,以及关于原始输入和输出文本的元数据。数据集结构包含默认配置,并包括包含 5 个示例的训练分割。该数据集旨在用于 AI 模型的反思调优,特别是用于分析和生成对复杂概念(如结合咖啡店、书店和餐厅的想法)的响应。该数据集可以使用提供的管道脚本和配置文件进行重现。
数据集:SpursgoZmy/MMTab
-
更新时间:2024-07-18
-
链接地址:SpursgoZmy/MMTab
-
数据集介绍:MMTab是一个大规模的多模态指令调优数据集,旨在增强和评估多模态大型语言模型(LLMs)的视觉表格理解能力。该数据集包含多样化的表格图像和指令跟随数据,涵盖15种表格任务,如表格问答、表格到文本转换、表格结构理解等。MMTab可以分为三个部分(MMTab-pre、MMTab-instruct、MMTab-eval),分别用于预训练、指令微调和评估。数据集的创建基于14个公开可用的表格数据集,涵盖8个领域,通过精心设计的脚本将原始文本表格转换为突出显示广泛表格结构和风格的表格图像,并将所有特定任务样本转换为具有统一格式的多模态指令调优样本。
数据集:对话-百科(中文)训练集
- 发布时间:2024-07-13
- 链接地址:对话-百科(中文)训练集
- 数据集介绍:无论您旨在构建聊天机器人,还是希望通过语料库掌握seq2seq或Transformer技术,这个拥有10万条精选中文对话的宝库都将为您提供助力。为了强化模型对人类语言语义的深刻理解和提高其在面对未知数据时的表现,我们在构建数据集的过程中采取了一种策略,即刻意纳入了一系列语义等价但表达形式各异的询问实例。这一策略的核心目的在于训练模型识别并掌握自然语言的多态性,从而显著增强其泛化能力。
数据集:Magpie-Qwen2-Pro-200K-Chinese|中文问答数据集|模型生成数据数据集
- 发布时间:2024-06-26
- 发布机构:Magpie Alignment
- 链接地址:Magpie-Qwen2-Pro-200K-Chinese|中文问答数据集|模型生成数据数据集
- 数据集介绍:该数据集由 Qwen/Qwen2-72B-Instruct 模型使用Magpie方法生成,包含200,000个样本,主要用于中文问题回答任务。数据集特征丰富,包括uuid、模型名称、生成输入配置、指令、响应、对话、任务类别等。数据集通过过滤确保高质量,如输入质量至少为'good',指令奖励大于等于-10,语言为中文,并移除重复和不完整的指令。
数据集:SEACrowd/emotes_3k
- 发布时间:2024-06-20
- 提供机构:SEACrowd
- 链接地址:SEACrowd/emotes_3k
- 数据集介绍:Emotes 3K数据集是一个用于情感基础的道德分类和指令调优任务的平行语料库,包含Tagalog和英语两种语言的场景,旨在解释行为的道德或不道德性。该数据集支持道德文本分类和指令调优两个任务,版本为1.0.0
数据集:BAAI/Infinity-Instruct|指令数据集数据集|指令微调数据集
-
发布时间:2024-06-13
-
发布机构:北京智源人工智能研究院
-
数据集介绍:Infinity Instruct是一个大规模高质量指令数据集,主要用于文本生成任务,包含英文和中文两种语言,数据量在1M到10M之间。数据集的构建基于大量的开源数据,通过指令选择和指令进化两种策略进行迭代。数据集分为基础数据集和聊天数据集两类,分别用于提升模型在复杂下游任务和实际对话场景中的性能。数据来源包括多个开源社区的数据集,如OpenHermes-2.5、UltraInteract_sft等。数据集的构建过程中,还采用了GPT-4自动评估和下游任务性能评估,以确保数据集的质量和实用性。
数据集:ZhanYang-nwpu/SkyEye-968k
- 发布时间:2024-06-12
- 链接地址:ZhanYang-nwpu/SkyEye-968k
- 数据集介绍:SkyEyeGPT数据集是由西北工业大学人工智能、光学和电子学学院(iOPEN)的Yang Zhan、Zhitong Xiong和Yuan Yuan开发的,用于统一远程传感视觉-语言任务的指令调优。最新发布的RS instruction dataset SkyEye-968k是一个重要的组成部分,支持多模态大型语言模型的发展。
数据集:TIGER-Lab/Mantis-Instruct|多模态学习数据集|图像理解数据集
- 更新时间:2024-05-11
- 链接地址:TIGER-Lab/Mantis-Instruct|多模态学习数据集|图像理解数据集
- 数据集介绍:Mantis-Instruct是一个包含721K例子的文本-图像交错多模态指令调优数据集,由14个子集组成,用于训练Mantis模型系列。该数据集涵盖了多种多图像技能,包括共指、推理、比较和时间理解。它包括来自现有数据集的10个子集和4个新策划的数据集,旨在扩展推理技能和其他多图像技能。
数据集:shi-labs/CuMo_dataset|机器学习数据集|自然语言处理数据集
- 发布时间:2024-05-06
- 发布机构:shi-labs
- 链接地址:shi-labs/CuMo_dataset|机器学习数据集|自然语言处理数据集
- 数据集介绍:CuMo数据集是一个用于多阶段训练的集合,包括预训练、预微调和视觉指令调优。预训练阶段使用LLaVA-558K数据集来预训练MLP,预微调阶段使用ALLaVA数据集,而视觉指令调优阶段则整合了多个数据集,如LLaVA-665K、ShareGPT4V等,以增强模型的视觉指令处理能力。所有数据集的使用均遵循各自的原始许可证。
数据集:shareAI/DPO-zh-en-emoji|聊天机器人数据集|指令微调数据集
- 发布时间:2024-06-04
- 发布机构:shareAI
- 链接地址:shareAI/DPO-zh-en-emoji|聊天机器人数据集|指令微调数据集
- 数据集介绍:DPO-zh-en-emoji 数据集是 shareAI 于 2024 年推出的一个特别设计用于微调大型语言模型的数据集,其中「DPO」代表直接偏好优化 (Direct Preference Optimization) 。这个数据集包含了大量的问答对数据,每个问题都有中文和英文两个版本的答案,并且答案中融入了趣味幽默的元素,包括表情符号 (emoji) 的使用。研究团队精心选出了一些源于知乎、逻辑推理、弱智吧的问题作为 query,使用 llama3 70b instruct 模型采样生成,对每个 query 生成一个中文版本的 answer 和一个英文版本的 answer 。这样的设计有助于激活多语言聊天模型的语言风格偏好,提升模型生成内容的质量和对人类偏好的符合度。
数据集:llama3 中文化数据集|自然语言处理数据集|中文语言模型数据集
- 发布时间:2024-05-17
- 链接地址:llama3 中文化数据集|自然语言处理数据集|中文语言模型数据集
- 数据集介绍:Llama3 中文化数据集合,该数据集已统一处理为firefly格式,可以配合firefly工具直接训练llama3中文模型。sft_zh_with_all.jsonl文件是包含所有清洗处理后数据集的合并文件,可以直接使用FireFly训练你的中文模型。(过滤后问答数据量约169万条)
数据集:DeepCtrl-sft-data 匠数科技大模型sft数据集|自然语言处理数据集|指令微调数据集
- 发布时间:2024-04-30
- 发布机构:OpenDataLab
- 链接地址:DeepCtrl-sft-data 匠数科技大模型sft数据集|自然语言处理数据集|指令微调数据集
- 数据集介绍:用于大模型SFT的包含10M条数据的中文数据集和包含2M条数据的英文数据集。随后,我们按照任务内容将其分为50类,并获得了每一类数据的关键词。
数据集:CMNEE|自然语言处理|军事新闻分析
- 发布时间:2024-04-18
- 发布机构:国防科技大学、东南大学、清华大学
- 链接地址:CMNEE(Chinese Military News Event Extraction dataset)|自然语言处理|军事新闻分析
- 数据集介绍:CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
数据集:IEPile |大规模信息抽取语料库|信息抽取数据集
- 发布时间:2024-04-09
- 发布机构:浙江大学
- 链接地址:zjunlp/iepile|信息抽取数据集|大规模语料库数据集
- 数据集介绍:IEPile是一个大规模的信息抽取语料库,专注于基于模式的指令型信息抽取。该语料库包含约0.32B个标记,涵盖通用、医疗、金融等多个领域。IEPile采用了一种基于模式的批量指令生成方法,成功地创建了一个高质量的IE微调数据集。该数据集支持英语和中文,并已用于微调Baichuan2-13B-Chat和LLaMA2-13B-Chat模型,这些模型在完全监督的训练集上表现出色,并在零样本信息抽取任务中取得了显著的改进。
数据集:LooksJuicy/ruozhiba|弱智吧精选问题
-
发布时间:2024-04-09
-
数据集介绍:本数据集受COIG-CQIA启发,构建了类似的数据集,但答案风格更为简洁。数据来源于github上的弱智吧精选问题,通过调用GPT-4生成答案,并过滤了不合适的回复。该数据集主要用于中文文本生成任务。
数据集:COIG-CQIA|自然语言处理数据集|中文语言处理数据集|指令微调
- 发布时间:2024-04-07
- 发布机构:OpenDataLab
- 链接地址:COIG-CQIA|自然语言处理数据集|中文语言处理数据集
- 数据集介绍:欢迎来到COIG-CQIA,COIG-CQIA全称为Chinese Open Instruction Generalist - Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文NLP社区提供高质量且符合人类交互行为的指令微调数据。
数据集:agicorp/commitpackft|编程语言数据集|代码生成数据集
- 更新时间:2024-03-23
- 链接地址:agicorp/commitpackft|编程语言数据集|代码生成数据集
- 数据集介绍:CommitPackFT是一个2GB的过滤版本,源自CommitPack数据集,专注于包含高质量的提交消息,这些消息类似于自然语言指令。该数据集支持277种语言,用于对大型代码语言模型进行指令调优。数据集结构详细,包括提交ID、提交前后的文件名、文件内容、编程语言和许可证信息等字段。此外,还提供了按语言和大小分布的数据分割详细表格。
数据集:pinzhenchen/alpaca-cleaned-bg|保加利亚语指令调优
- 发布时间:2024-03-06
- 链接地址:pinzhenchen/alpaca-cleaned-bg|保加利亚语指令调优
- 数据集说明:该HF数据仓库包含用于我们单语与多语指令调优研究的保加利亚语Alpaca数据集。数据集通过机器翻译从yahma/alpaca-cleaned数据集转换而来,包含约52K个实例,每个实例包括指令、输出和一个可选的输入。数据集主要用于保加利亚语指令调优。
数据集:M³IT:多模式多语言指令调优数据集|视觉语言理解数据集|机器学习数据集
- 发布时间:2024-01-19
- 链接地址:M³IT:多模式多语言指令调优数据集|视觉语言理解数据集|机器学习数据集
- 数据集介绍:数据集由 40 个数据集组成,其中包括 240 万个实例和 400 条手动编写的任务指令,并重新格式化为视觉到文本结构。数据集编译了经典视觉语言任务的各种任务,包括字幕、视觉问答(VQA)、视觉条件生成、推理和分类。
数据集:KAgent Instruct 指令调优数据集|人工智能数据集|自然语言处理数据集
- 发布时间:2024-01-16
- 链接地址:KAgent Instruct 指令调优数据集|人工智能数据集|自然语言处理数据集
- 数据集介绍:KAgent Instruct 是 Kwai Agents (Github) 提出的指令调优数据集,是快手科技 KwaiKEG 开源的 Agent 相关系列作品。它包含超过 200k 条与代理相关的指令微调数据(部分由人工编辑)。请注意,该数据集不包含论文中提到的通用类型数据。