2024最全 高质量 大模型-偏好数据集(10月12号已更新)

126 阅读13分钟

大模型中的偏好数据集,就好比是给一个超级学霸特别定制的教材,这些教材里的内容都是这个学霸特别感兴趣或者特别擅长的。这样一来,学霸就能在这些领域里学得更快、更深入,而不是在所有科目上平均用力。简单来说,就是让大模型在它擅长或者感兴趣的领域里更加出色。

偏好数据集的三个优点包括:

1、提高效率:

就像学霸专注于自己擅长的科目,大模型也能更快地学习和掌握偏好数据集中的信息,这样就能节省时间和资源。

2、增强专业性:

通过专注于特定的数据,大模型可以在这个领域里变得更加专业,就像一个专门研究烹饪的厨师,做出来的菜肯定更美味。

3、减少干扰:

如果大模型什么都学,可能会被一些不那么重要的信息分散注意力。有了偏好数据集,它就能更专注于那些真正重要的信息,就像在嘈杂的教室里,戴上耳塞就能更专心学习一样。

偏好数据集的不同评价方法:

1、投票

  • 人类投票:这种方法涉及让人类评估者对多个响应进行投票,以表达他们对不同响应的偏好。这可以帮助模型学习如何生成更符合人类期望的响应。

2、排序

  • 人类排序:在这种方法中,人类评估者需要对一组响应进行排序,以反映他们的偏好顺序。

3、评分

  • 人类评分:人类评估者为不同的响应打分,以量化他们对响应的偏好程度。
  • 模型评分:使用模型自动为响应打分,这种方法可以节省人工评估的成本和时间,但可能受到模型偏差的影响。

4、其他

  • 步骤对齐:指的是评估响应在执行多步骤任务时的对齐程度,即响应是否按照预期的步骤顺序进行。

  • 来源差异:涉及到评估不同数据源或不同生成方法的响应之间的差异。

数据集:MT-PREF|机器翻译数据集|偏好分析数据集

  • 创建时间:2024-10-10

  • 链接地址:MT-PREF|机器翻译数据集|偏好分析数据集

  • 数据集介绍:MT-PREF数据集由电信研究所和高等技术学院等机构创建,旨在通过自动评估指标来模拟用户对机器翻译的偏好。数据集包含18,000个实例,覆盖18种语言方向,文本来源广泛,主要从2022年后的多个领域中提取。数据集的创建过程包括收集专业语言学家的质量评估,并使用XCOMET-XL+XXL指标进行偏好分析。MT-PREF数据集主要应用于机器翻译领域,旨在通过高质量的偏好数据集来提升翻译模型的准确性和安全性。

数据集:Capybara-Preferences|偏好分析数据集|机器学习数据集

  • 发布时间:2024-09-19

  • 链接地址:Capybara-Preferences|偏好分析数据集|机器学习数据集

  • 数据集介绍:该数据集包含多个特征,如'source'、'chosen'、'chosen_rating'、'chosen_model'、'rejected'、'rejected_rating'和'rejected_model'。其中,'chosen'和'rejected'是列表类型,包含'content'和'role'两个子特征。数据集分为'train'和'test'两个部分,分别包含15204和200个样本。数据集的总下载大小为79362069字节,总大小为152534966.0字节。

数据集:rpr|偏好分析数据集|上下文感知数据集

  • 发布时间:2024-07-26

  • 发布机构:Microsoft

  • 链接地址:rpr|偏好分析数据集|上下文感知数据集

  • 数据集介绍:Reasonable Preference Reversal (RPR) Dataset是一个合成条件-条件偏好数据集,包含超过20000个配对元组,包括提示、上下文(标准或场景)和偏好判断。该数据集的设计确保了在没有上下文的情况下,两个完成的偏好是完全模糊的,从而测试模型对上下文的关注和解释能力。数据集主要用于训练和评估上下文感知偏好模型,特别是在需要上下文理解和偏好确定的任务中。数据集由Silviu Pitis等人创建,主要语言为英语。

数据集:redsgnaoh/orcaratgen|偏好学习数据集|直接偏好优化数据集

  • 更新时间:2024-07-22

  • 链接地址:redsgnaoh/orcaratgen|偏好学习数据集|直接偏好优化数据集

  • 数据集介绍:这是一个增强版的配对偏好学习数据集,基于Intel-ORCA-DPO数据集,增加了理由(rationale)信息。这些理由是对为什么选择某个响应而不是另一个响应的高层次解释。数据集包含四个主要特征:prompt(提示)、chosen(被选中的响应)、rejected(被拒绝的响应)和rationale(理由)。数据集分为训练集和测试集,分别包含12000和854个样本。数据集的生成遵循论文《Data-Centric Human Preference Optimization with Rationales》的方法。

数据集:argilla/distilabel-capybara-dpo-7k-binarized|多轮对话数据集|偏好调整数据集

  • 发布时间:2024-07-16

  • 发布机构:argilla

  • 链接地址:argilla/distilabel-capybara-dpo-7k-binarized|多轮对话数据集|偏好调整数据集

  • 数据集介绍:CapybaraDPO-7k是一个多轮对话偏好数据集,用于微调开源大型语言模型(LLMs)的聊天能力。该数据集包含物理、生物、数学等多个学科领域的对话,通过distilabel工具处理,提供了详细的对话结构,包括输入、输出、选择的响应和拒绝的响应及其评分。数据集还提供了使用示例,指导用户如何利用这些数据进行DPO微调,以提升模型的多轮对话处理能力。

数据集:Jiann/UnifiedPreferenceDataset|用户偏好数据集|推荐系统数据集

数据集:shibing624/medical|医疗,偏好数据集数据集

  • 发布时间:2024-06-16
  • 链接地址:shibing624/medical|医疗,偏好数据集数据集
  • 数据集介绍:medical是一个中文医疗数据集,包含预训练、微调和奖励三个部分,用于医疗领域大模型训练。预训练部分使用医疗百科和教材数据,微调部分使用医疗对话和问诊数据,奖励部分用于评估模型回答的质量。数据集支持中文医疗对话模型的训练,数据主要为中文。

数据集:NUSTM/judgment-consistency-preference-data|模型判断一致性数据集|对话系统

  • 发布时间:2024-06-07

  • 链接地址:NUSTM/judgment-consistency-preference-data|模型判断一致性数据集|对话系统数据集

  • 数据集介绍:这是一个偏好数据集,旨在增强模型在面对干扰时的判断一致性,适用于DPO算法。数据集包含2607个从算术、常识、符号和知识推理数据集中采样的提示,每个提示伴随一对响应:一个‘选定’响应和一个‘拒绝’响应。数据集设计了一个包含一轮后续提问干扰的对话场景,模型在面对后续提问时的可能判断类型有True-True、False-True、False-False和True-False。数据集的偏好排序为True-True ≻ False-True ≻ False-False ≻ True-False。此外,数据集还考虑了模型响应对指令的遵守程度,因此在‘拒绝’响应中保留了一部分答案正确但未严格遵循指令输出格式的样本。数据集以parquet格式存储,每个条目包含数据集名称、ID、问题、真实答案、SFT评分、偏好评分、选定响应和拒绝响应等信息。

数据集:kaist-ai/Multifaceted-Collection-ORPO|语言模型训练数据集|偏好对齐数据集

  • 发布时间:2024-05-28

  • 链接地址:kaist-ai/Multifaceted-Collection-ORPO|语言模型训练数据集|偏好对齐数据集

  • 数据集介绍:Multifaceted Collection ORPO是一个用于将大型语言模型(LLMs)与多样化人类偏好对齐的偏好数据集。该数据集包含65k条独特的指令,每条指令选择一个系统消息并将与之对齐的响应标记为“chosen”,同时从其余两个非对齐系统消息中选择一个响应作为“rejected”。数据集的创建涉及从五个现有高质量偏好数据集中采样指令,并使用GPT-4 Turbo生成系统消息和标准答案。该数据集适用于文本生成和偏好优化任务。

数据集:openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集

  • 发布时间:2024-05-28
  • 发布机构:openbmb
  • 链接地址:openbmb/RLHF-V-Dataset|多模态学习数据集|人工智能反馈数据集
  • 数据集介绍:RLHF-V-Dataset是一个用于多模态语言模型的人类偏好数据集,包含5,733个偏好对,涵盖了多样化的指令,包括详细的描述和问答指令。该数据集通过细粒度的人类反馈来提高模型的可信度和减少模型的幻觉现象。

数据集:Hummer|偏好数据集数据集|AI对齐优化数据集

  • 发布时间:2024-05-20

  • 发布机构:麦吉尔大学, 北京大学, 蚂蚁集团

  • 链接地址:Hummer|偏好数据集数据集|AI对齐优化数据集

  • 数据集介绍:Hummer是一个创新的成对偏好数据集,旨在减少对齐目标之间的竞争。该数据集基于UltraFeedback构建,并通过GPT-4的AI反馈进行了增强,成为首个旨在减少对齐目标间竞争的偏好数据集。Hummer通过三阶段过程构建:偏好与目标标注、对齐目标细化及数据集分割。数据集的应用领域包括特定领域的进一步微调和减少对攻击的脆弱性,旨在通过优先考虑某些对齐目标而不牺牲其他目标的性能来解决特定问题。

数据集:RLAIF-V-Dataset - 大规模多模态偏好数据集

  • 发布时间:2024-05-19
  • 发布机构:OpenBMB
  • 链接地址:RLAIF-V-Dataset - 大规模多模态偏好数据集
  • 数据集介绍:RLAIF-V-Dataset是OpenBMB构建的一个大规模多模态偏好数据集。该数据集是由AI生成的偏好数据集,涵盖各种任务和领域,包含44,757组高质量对比对。RLAIF-V-数据集通过一个新颖的方法,采用开源大模型来对模型响应进行去混杂处理,并提供高质量的反馈。该数据集应用在了MiniCPM-Llama3-V 2.5模型的训练中,MiniCPM-Llama3-V 2.5 是第一个具有 GPT-4V 性能的端侧多模态大模型。RLAIF-V-Dataset可以有效减少不同多模态大模型的幻觉。

数据集:HC3-Chinese|文本分析数据集|偏好数据集数据集

  • 发布时间:2024-05-09

  • 发布机构:maas

  • 链接地址:HC3-Chinese|文本分析数据集|偏好数据集数据集

  • 数据集介绍:HC3 (Human ChatGPT Comparison Corpus) 数据集,它由近 40K 个问题及其相应的人类/ChatGPT 答案组成。基于 HC3 数据集,我们进行了广泛的研究,包括人工评估、语言分析和内容检测实验。人类评价和语言学分析为我们提供了对人类和 ChatGPT 之间隐性差异的洞察,这激发了我们对 LLMs 未来方向的思考。

数据集:shareAI-Llama3 中文化偏好数据集|语言偏好数据集|机器学习数据集

数据集:wenbopan/Chinese-dpo-pairs|偏好数据集数据集|机器翻译数据集

  • 发布时间:2024-04-02
  • 链接地址:wenbopan/Chinese-dpo-pairs|偏好数据集数据集|机器翻译数据集
  • 数据集介绍:Chinese-dpo-pairs 数据集包含 10K 个精心整理的中文参考对,这些数据是通过GPT-3.5从多个来源翻译而来,包括flan_v2, sharegpt, ultrachat, evol_instruct, false_qa, open_orca, 和 truthy_dpo。数据集的特征包括prompt, system, chosen, rejected, source, 和 id,主要用于对齐训练,共有10735个样本。

数据集:CodeUltraFeedback|偏好数据集数据集|AI模型校准数据集

  • 发布时间:2024-03-14
  • 发布机构:蒙特利尔大学DIRO
  • 链接地址:CodeUltraFeedback|偏好数据集数据集|AI模型校准数据集
  • 数据集介绍:CodeUltraFeedback是由蒙特利尔大学DIRO创建的一个包含10,000个复杂指令的数据集,旨在通过AI反馈调整和校准大型语言模型(LLMs)以符合编程偏好。该数据集通过14种不同的LLMs生成响应,并使用GPT-3.5作为评判标准,提供数值和文本反馈。数据集内容涵盖指令遵循、代码解释、代码复杂性和效率、代码可读性以及编码风格等五个非功能性要求(或编程偏好)。CodeUltraFeedback不仅用于校准LLMs,还支持了如UltraFeedback、AI反馈的强化学习(RLAIF)和LLM作为评判者等先进校准技术的开发。此外,该数据集还促进了CODAL-Bench的建立,这是一个评估LLMs与编程偏好对齐的基准。

数据集:Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集

  • 发布时间:2024-01-17
  • 链接地址:Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集
  • 数据集介绍:该仓库总结了现有代表性的大型语言模型文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。此外,还新增了多模态大型语言模型数据集和检索增强生成数据集等部分。