星火大模型驱动阅读理解题库构建挑战赛--Datawhale AI夏令营大模型术(微调)baseline跑通笔记

93 阅读1分钟

1.进入官网报名

地址:challenge.xfyun.cn/topic/info?…

2.数据处理,是在飞奖平台上运行的,baseline的数据处理。

语文问答数据制作、英语问题制作

用 pandas 读取己有的数据集,输出问答对。训练集是夏令营提供。

以下为部分代码,实现的结果比较简单,训练集应该是清洗过的 `# coding~ import pandas as pd import re

读取Excel文件

df = pd.read_excel('训练集-语文.xlsx') df = df.replace('.', '.', regex=True) df = df.replace('(', '(', regex=True)

读取第二行(即第三行)“选项”列的内容

second_row_option_content = df.loc[2, '选项']

显示第二行“选项”列的内容

print(second_row_option_content)`

接下来的步骤就是英语和语文的问答对的数据处理。 这段的感受是可以无脑运行。

3.模型微调,操作会多一些。 将数据处理后的文件,以训练集的形式上传到讯飞的模型训练平台,用的是零代码微调,会比较简单一些。 创建数据集,类型是训练集,上传文件(output.jsonl,是在飞奖生成的问答对,训练集需要转换等待完成。 用训练集训练模型,填写训练模型的信息(spark-13B),训练时长24.37秒,微调方式LoRA,轮次5轮,。 4.测试环节 模型训练完成,需要把训练完的模型发布成服务,才可以测试 在星火大模型驱动阅读理解题库构建挑战赛的页面内提交成绩。生成分数有点慢,最后得分:29.47917