Datawhale AI 夏令营第一期学习笔记 (二)分数小结相比第一次baseline，一共额外提交了三次。上次

本文Tag：#这个夏令营不简单 #AI夏令营 #Datawhale #夏令营

分数小结

相比第一次baseline，一共额外提交了三次。

上次给prompt修正，提示了倾向性的选项。调的这次prompt，虽然希望他的分数更高，但是实际上分数反而还下降了一点。（17.5==>17）

而后续我采用群里大佬对原始数据进行精炼的思想（不完全相同），分数上涨1分。 (18)

与此同时，并行跑了一次baseline2的微调方案，在等待两天后，分数居然上涨了9分！(27)

果然还是让模型看一遍训练集之后的微调香啊。

微调理解

Datawhale 提供的baseline2依旧十分详细：aistudio.baidu.com/projectdeta…

核心流程主要是：

制作数据集（训练集和测试集的优化与适配）
云平台配置微调
使用微调后的模型，去跑重构后的测试集，得到结果。

我们讲讲第一步，核心的提分点应该是对需要抽取的内容做一个总结：

好了我们来说说prompt。这个prompt相较于baseline01区别比较明显，对需要抽取的任务做了一次总结。总结了四个方面：

客户基本信息：需要从中区分出客户角色，并得到客户基本信息，其中包括姓名、手机号码、邮箱、地区、详细地址、性别、年龄和生日

客户意向与预算信息：客户意向与预算信息包括咨询类型、意向产品、购买异议点、预算是否充足、总体预算金额以及预算明细

客户购买准备情况：户购买准备情况包括竞品信息、客户是否有意向、客户是否有卡点以及客户购买阶段

跟进计划信息：跟进计划信息包括参与人、时间点和具体事项，这些信息用于指导销售团队在未来的跟进工作中与客户互动

(有一个小细节，上面的prompt漏了一个"客"户)

数据处理prompt设计了一个总结Prompt，将原始对话内容进行精简，节约微调的运算资源，并让数据被清洗后更容易被模型理解，达到更好的抽取效果。训练数据集制作需要将官网下载的训练数据经过星火3.5api清洗后，按照规范的单行jsonl存储格式存入traindata.jsonl文件中。测试集数据制作与训练集类似，将清洗后的数据存储为csv文件。

此处不禁有个问题冒出来：为什么要这么做，我按照baseline1的prompt直接拼接初始的train.json丢去训练不行吗？

让我们移步到星火微调的数据集上传需求。