本文Tag:#这个夏令营不简单 #AI夏令营 #Datawhale #夏令营
分数小结
相比第一次baseline,一共额外提交了三次。
上次给prompt修正,提示了倾向性的选项。 调的这次prompt,虽然希望他的分数更高,但是实际上分数反而还下降了一点。(17.5==>17)
而后续我采用群里大佬对原始数据进行精炼的思想(不完全相同),分数上涨1分。 (18)
与此同时,并行跑了一次baseline2的微调方案,在等待两天后,分数居然上涨了9分!(27)
果然还是让模型看一遍训练集之后的微调香啊。
微调理解
Datawhale 提供的baseline2依旧十分详细:aistudio.baidu.com/projectdeta…
核心流程主要是:
- 制作数据集(训练集和测试集的优化与适配)
- 云平台配置微调
- 使用微调后的模型,去跑重构后的测试集,得到结果。
我们讲讲第一步,核心的提分点应该是对需要抽取的内容做一个总结:
好了我们来说说prompt。这个prompt相较于baseline01区别比较明显,对需要抽取的任务做了一次总结。总结了四个方面:
客户基本信息:需要从中区分出客户角色,并得到客户基本信息,其中包括姓名、手机号码、邮箱、地区、详细地址、性别、年龄和生日
客户意向与预算信息: 客户意向与预算信息包括咨询类型、意向产品、购买异议点、预算是否充足、总体预算金额以及预算明细
客户购买准备情况:户购买准备情况包括竞品信息、客户是否有意向、客户是否有卡点以及客户购买阶段
跟进计划信息: 跟进计划信息包括参与人、时间点和具体事项,这些信息用于指导销售团队在未来的跟进工作中与客户互动
(有一个小细节,上面的prompt漏了一个"客"户)
数据处理prompt设计了一个总结Prompt,将原始对话内容进行精简,节约微调的运算资源,并让数据被清洗后更容易被模型理解,达到更好的抽取效果。训练数据集制作需要将官网下载的训练数据经过星火3.5api清洗后,按照规范的单行jsonl存储格式存入traindata.jsonl文件中。测试集数据制作与训练集类似,将清洗后的数据存储为csv文件。
此处不禁有个问题冒出来:为什么要这么做,我按照baseline1的prompt直接拼接初始的train.json丢去训练不行吗?
让我们移步到星火微调的数据集上传需求。
4000字符!
(在当下随便一个大模型128k的上下文上面确实不够看了)
因为字数要求,所以总结缩写必不可少。毕竟可以最大程度上缩减被截断的输入。
但是原始数据不过百来条,如何达到微调的最低1500条的要求,baseline2也给出了思路,就是复制黏贴。
很不错,后面就生成了连续12条相同的训练数据。同时我们需要将训练轮次调整到1轮。
(话说一轮12条数据和12轮1条数据哪种效果好勒?)
后面照着baseline跑即可得到理想的效果啦~