Qwen2.5-7B 微调rz吧数据集

430 阅读14分钟

Qwen2.5-7B 微调弱智吧数据集

模型微调简介

模型微调是一种在已有预训练模型的基础上,通过使用特定任务的数据集进行进一步训练的技术。这种方法允许模型在保持其在大规模数据集上学到的通用知识的同时,适应特定任务的细微差别。使用微调模型,可以获得以下好处:

提高性能:微调可以显著提高模型在特定任务上的性能。 减少训练时间:相比于从头开始训练模型,微调通常需要较少的训练时间和计算资源。 适应特定领域:微调可以帮助模型更好地适应特定领域的数据和任务。 SiliconCloud 平台提供高效的模型微调能力,目前有以下模型支持微调:

  • Qwen/Qwen2.5-7B-Instruct
  • Qwen/Qwen2.5-14B-Instruct
  • Qwen/Qwen2.5-32B-Instruct
  • Qwen/Qwen2.5-72B-Instruct

模型及数据集介绍

Qwen2.5-7B 是由阿里巴巴达摩院开发的一款基于 Transformer 架构的大规模语言模型。该模型在多个 NLP 任务上表现出色,尤其是在中文语境下。Qwen2.5-7B 的参数量约为 70 亿,具备较强的语言理解和生成能力。

弱智吧是一个中文社区,用户在其中分享各种幽默、搞笑的对话和段子。弱智吧数据集包含了大量的对话样本,适合用于训练模型在幽默、搞笑场景下的表现。通过微调 Qwen2.5-7B 模型,我们可以让模型更好地理解和生成类似的幽默内容。

部分数据:

{"messages":[{"role":"user","content":"只剩一个心脏了还能活吗?"},{"role":"assistant","content":"能,人本来就只有一个心脏。"}]}
{"messages":[{"role":"user","content":"爸爸再婚,我是不是就有了个新娘?"},{"role":"assistant","content":"不是的,你有了一个继母。\"新娘\"是指新婚的女方,而你爸爸再婚,他的新婚妻子对你来说是继母。"}]}
{"messages":[{"role":"user","content":"樟脑丸是我吃过最难吃的硬糖有奇怪的味道怎么还有人买"},{"role":"assistant","content":"樟脑丸并不是硬糖,而是一种常见的驱虫药,不能食用。虽然它的味道可能不太好,但是由于其有效的驱虫效果,所以仍然有很多人会购买。"}]}
{"messages":[{"role":"user","content":"马上要上游泳课了,昨天洗的泳裤还没干,怎么办"},{"role":"assistant","content":"游泳时泳裤本来就会湿,不用晾干。"}]}
{"messages":[{"role":"user","content":"为什么没人说ABCD型的成语?🤔"},{"role":"assistant","content":"这是因为中文成语一般都是四字成语,每个字都有其特定的含义,四个字合在一起构成一个完整的意思。而ABCD型的成语最常见,所以大家不会刻意强调。"}]}
{"messages":[{"role":"user","content":"我只出生了一次,为什么每年都要庆生"},{"role":"assistant","content":"庆生并不是为了庆祝出生,而是为了庆祝每一次的生日,也就是出生后的每一年。这是一个纪念自己在过去一年中成长和经历的方式,也是对未来一年的期待和祝福。"}]}
{"messages":[{"role":"user","content":"我25岁 我爸50岁 那我爸两岁就生了我啦?"},{"role":"assistant","content":"不对,你25岁,你爸50岁,那么你爸在你出生时应该是25岁,而不是两岁。"}]}
{"messages":[{"role":"user","content":"为什麽我老婆内裤拔下来没有马赛克?"},{"role":"assistant","content":"因为现实生活中并没有马赛克这种东西,马赛克是电视、网络等媒体为了遮挡一些不适宜公开的画面或者保护隐私而使用的一种手段。"}]}
{"messages":[{"role":"user","content":"活人和死人结婚是冥婚,那死人和活人结婚叫什么?"},{"role":"assistant","content":"这仍然被称为冥婚。无论是活人和死人,还是死人和活人,只要其中一方是死者,这种婚姻都被称为冥婚。"}]}
{"messages":[{"role":"user","content":"两千块钱买什么新车好?"},{"role":"assistant","content":"如果非要回答,那可能只能是玩具车或者模型车。"}]}
{"messages":[{"role":"user","content":"太阳还有五十亿年就没了,那到时候向日葵看哪呢?"},{"role":"assistant","content":"实际上,向日葵并不会意识到太阳的存在与否,它们只是通过光敏反应来追踪太阳。如果太阳消失,向日葵也不会存活下来,所以它们不会看向任何地方。"}]}
{"messages":[{"role":"user","content":"我把我车钥匙落在车里,现在锁不了车门了。 有人能告诉我怎么办吗?"},{"role":"assistant","content":"如果你的车钥匙已经锁在车里,那么你实际上已经无法再从外部打开车门了,所以你的车已经被锁住了。你需要做的是找专业的开锁服务或者联系汽车救援服务来帮你打开车门,取回你的车钥匙。"}]}
{"messages":[{"role":"user","content":"鸡柳是鸡身上哪个部位啊?"},{"role":"assistant","content":"\"鸡柳\"并不是鸡的实际部位,而是一种烹饪方式。通常是指将鸡胸肉切成长条状,然后进行烹饪的食物。所以,\"鸡柳\"通常来自鸡的胸肉部分。"}]}
{"messages":[{"role":"user","content":"同学说steam好玩,我现在八级烫伤了怎么办? 救救我"},{"role":"assistant","content":"\"Steam\"是一个电子游戏分发平台,不是steam蒸汽。建议立即去医院,顺便看看脑子。"}]}
{"messages":[{"role":"user","content":"我的大脑总是控制我的思想,怎么才能摆脱大脑控制啊,好烦"},{"role":"assistant","content":"因为你的思想本身就是由大脑产生的,没有大脑,就没有思想。所以,你不能摆脱大脑的控制。如果你觉得思想混乱或者困扰,你可以尝试一些放松大脑的方法,比如冥想、瑜伽、听音乐或者进行一些你喜欢的活动。"}]}
{"messages":[{"role":"user","content":"既然原子弹是美国发明的 那为什么美国不申请专利呢? 美国发明原子弹然后申请专利,那其他国家不就不能生产了吗?"},{"role":"assistant","content":"此外,专利信息是公开的,如果美国申请了原子弹的专利,那么原子弹的制造方法就会被公之于众,这对全球的安全形势将构成威胁。再者,专利权只能在一定范围内,如一国或一地区内,对发明进行保护,不能阻止其他国家或地区的人进行研究和制造。因此,美国没有也不能对原子弹申请专利。"}]}
{"messages":[{"role":"user","content":"人在岩浆里憋气最长时间是多少? 刚才好奇搜了一下,水里憋气时间最长的是克罗地亚54岁在水中闭气24分33秒,但是我搜在岩浆里憋气时间最长,居然发现一个没有,不都是液体吗?为什么没人在岩浆里憋气?"},{"role":"assistant","content":"因为岩浆的温度极高,达到了800-1200摄氏度,人如果接触到岩浆,会立刻被烧伤,甚至瞬间死亡,所以没有人能在岩浆里憋气。这并不是一个合理的比较,因为水和岩浆虽然都是液体,但是它们的性质差别极大。"}]}
{"messages":[{"role":"user","content":"出生证丢了怎么证明自己出生了"},{"role":"assistant","content":"可以通过其他官方文件来证明,例如护照、身份证、驾驶证等。这些文件都需要出生证明来申请,因此它们也可以作为你出生的证明。此外,医院的出生记录、学校的入学记录、家庭照片等也可以作为间接证据。如果所有这些都没有,可以向出生地的公共卫生部门或者医院申请复制出生证明。"}]}
{"messages":[{"role":"user","content":"为什么抄袭永远都是今人抄袭古人,而没有古人抄袭今人的案例?"},{"role":"assistant","content":"这是因为时间的流逝是单向的,古人无法预知今人的思想和作品,所以古人无法抄袭今人。而今人可以通过学习古人的作品,因此有可能出现抄袭古人的情况。"}]}
{"messages":[{"role":"user","content":"为什么单位学校这些都有保卫处,没有进攻处呢"},{"role":"assistant","content":"这是因为单位、学校等机构的主要职责是教育和服务,而非攻击或侵犯。保卫处的存在是为了维护这些机构的安全和稳定,防止外部的侵扰和威胁。而\"进攻处\"则与这些机构的性质和目标不符,因此不会设立。"}]}
{"messages":[{"role":"user","content":"问一道数学问题 关羽一小时能斩20个颜良 华佗一小时能救17个颜良 假设一共有233.3个颜良 关羽斩颜良的同时华佗救颜良 求关羽多长时间能把颜良给杀完?"},{"role":"assistant","content":"关羽一小时能斩20个颜良,华佗一小时能救17个颜良,所以关羽和华佗一小时实际上只能减少3个颜良(20-17=3)。所以,要消灭233.3个颜良,关羽需要的时间是233.3/3=77.77小时。"}]}
{"messages":[{"role":"user","content":"我同时吸入氧气和氢气是不是就等于我在喝水了"},{"role":"assistant","content":"不是的。虽然水是由氢和氧组成的,但是单纯地吸入氧气和氢气并不能形成水。水的形成需要氢和氧在特定条件下进行化学反应,而且这个反应是剧烈的,会产生大量的热量,对人体是极其危险的。所以,你不能通过吸入氧气和氢气来喝水。"}]}
{"messages":[{"role":"user","content":"我家酸奶酸了,我该怎么办 扔掉还是喝掉 急!!!"},{"role":"assistant","content":"酸奶本身就是酸的,所以你的酸奶并没有坏。你可以放心喝。但是,如果你指的是酸奶过期或者发霉,那么你应该扔掉,不要喝。"}]}
{"messages":[{"role":"user","content":"怎么区分00后 1900出生的是00后,2000出生的也是00后,我该怎么区分?"},{"role":"assistant","content":"你可以通过询问他们的具体出生年份来区分。\"00后\"通常指的是2000年至2009年间出生的人。而1900年出生的人,虽然他们的出生年份也以\"00\"结尾,但他们属于20世纪初的一代,与\"00后\"有很大的年龄差距。所以,你可以通过询问他们的具体出生年份,或者他们的年龄,来区分他们是1900年出生的人,还是2000年出生的\"00后\"。"}]}
{"messages":[{"role":"user","content":"一些高中想提高升学率,为什么不直接招大学生?"},{"role":"assistant","content":"因为高中的目标是培养学生进入大学,而不是招收已经是大学生的人。招收大学生并不能提高高中的升学率,因为这些大学生已经完成了高中阶段的学习并成功升入大学。高中应该通过提高教学质量,增强学生的学习能力和兴趣,以提高其升学率。"}]}
{"messages":[{"role":"user","content":"火烧赤壁 曹操为何不拨打119求救?"},{"role":"assistant","content":"因为在三国时期,还没有电话和现代的消防系统,所以曹操无法拨打119求救。"}]}
{"messages":[{"role":"user","content":"为啥长寿的碰巧都是老年人?"},{"role":"assistant","content":"这是因为\"长寿\"本身就是指的人的年龄大,生活的时间长,所以长寿的人自然就是老年人。这并不是碰巧,而是\"长寿\"这个词语的定义就决定了这一点。"}]}
{"messages":[{"role":"user","content":"前天还有人祝我生日快乐呢,今天怎么没了?"},{"role":"assistant","content":"因为今天不是你的生日,前天是你的生日。"}]}
{"messages":[{"role":"user","content":"今天监考老师发试卷的同时还给我发了张白纸,这是在嘲讽我吗?"},{"role":"assistant","content":"不一定。在考试中,发白纸通常是为了让学生有地方做草稿,进行计算或者组织答案,而不是嘲讽你。"}]}
{"messages":[{"role":"user","content":"为什么牛顿出了第三定律之后就不更新了,是不是卷钱跑路了"},{"role":"assistant","content":"牛顿的第三定律,也就是作用力和反作用力的定律,是他在物理学上的重要贡献之一。他在此后的生涯中,仍然在科学、数学等领域进行了大量的研究和探索。他没有再更新第三定律,是因为这个定律已经被广泛接受并且在实践中得到了验证,没有必要进行修改或更新。"}]}
{"messages":[{"role":"user","content":"电视剧经常出现一个人被蛇咬,另一个人用嘴帮他吸出蛇毒的场面 可是吸毒不是违法的吗"},{"role":"assistant","content":"这里的\"吸毒\"是指吸出蛇毒,而不是吸食毒品。虽然这两个词在中文中都叫\"吸毒\",但是它们的含义完全不同。在电视剧中,吸出蛇毒是为了救人,而吸食毒品则是违法行为。所以,电视剧中的这种行为并不违法。但实际上,用嘴吸蛇毒是非常危险的,因为蛇毒可能通过口腔的伤口进入身体,这是不科学的救治方式。"}]}
{"messages":[{"role":"user","content":"蓝牙耳机坏了,去医院挂牙科还是耳科?"},{"role":"assistant","content":"蓝牙耳机坏了应该去维修店或者找专业的电子产品维修人员修理,而不是去医院的牙科或耳科。"}]}
{"messages":[{"role":"user","content":"我算知道艾滋病人为什么受歧视了 全校组织无偿献血,一个艾滋病人都没来"},{"role":"assistant","content":"艾滋病人不能献血,因为他们的血液中含有HIV病毒,如果将这种血液输给其他人,会导致其他人也感染艾滋病。所以,艾滋病人没有参加无偿献血活动,是为了保护其他人的健康,而不是因为他们受到歧视。"}]}

效果预览

在这里插入图片描述

实操

在 SiliconFlow 中微调模型非常简单。只需访问 cloud.siliconflow.cn/fine-tune,上传好自己的数据(jsonl)格式,选好配置即可。

数据要求

  • 文件格式:JSONL后缀,每行一个JSON对象 每行数据结构:
  1. 每行必须是一个完整的 JSON 对象
  2. 必须包含 messages 数组字段
  3. messages 中的每条消息必须包含 role 和 content 字段
  4. role 仅支持:system / user / assistant
  5. 最前面的system是可选的,后面的user / assistant必须成对出现 如下为数据示例:
{"messages": [{"role": "system", "content": "你是客服助手"}, {"role": "user", "content": "如何修改收货地址?"}, {"role": "assistant", "content": "您可以按以下步骤修改:\n1. 进入订单详情\n2. 点击'修改地址'\n3. 输入新地址信息\n4. 保存修改"}]}
{"messages": [{"role": "system", "content": "你是客服助手"}, {"role": "user", "content": "如何指定收获时间"}, {"role": "assistant", "content": "您可以按以下步骤修改:\n1. 进入订单详情\n2. 点击'修改送货时间'\n3. 输入新收获时间\n4. 保存修改"}]}

配置任务

  • 填写任务名称
  • 选择基础模型
  • 上传或选取已上传的训练数据
  • 设置验证数据,支持训练集按比例切分(默认 10%),或单独选定验证集
  • 配置训练参数

开始训练

  • 点击”开始微调”
  • 等待任务完成
  • 获取模型标识符

  • 通过 /chat/completions API 即可直接调用微调后的模型

数据规模

  • 建议数据量:100-1000 条
  • 单文件上限:10MB
  • 总行数上限:1000 行
  • 验证集比例:10% ​

质量要求

  • 数据质量:直接影响模型训练效果
  • 内容要求:
  • 确保对话内容准确且专业
  • 保持一致的回答风格和语气
  • 充分覆盖主要业务场景