1.进入官网报名
地址:challenge.xfyun.cn/topic/info?…
2.数据处理,是在飞奖平台上运行的,baseline的数据处理。
语文问答数据制作、英语问题制作
用 pandas 读取己有的数据集,输出问答对。训练集是夏令营提供。
以下为部分代码,实现的结果比较简单,训练集应该是清洗过的 `# coding~ import pandas as pd import re
读取Excel文件
df = pd.read_excel('训练集-语文.xlsx') df = df.replace('.', '.', regex=True) df = df.replace('(', '(', regex=True)
读取第二行(即第三行)“选项”列的内容
second_row_option_content = df.loc[2, '选项']
显示第二行“选项”列的内容
print(second_row_option_content)`
接下来的步骤就是英语和语文的问答对的数据处理。 这段的感受是可以无脑运行。
3.模型微调,操作会多一些。 将数据处理后的文件,以训练集的形式上传到讯飞的模型训练平台,用的是零代码微调,会比较简单一些。 创建数据集,类型是训练集,上传文件(output.jsonl,是在飞奖生成的问答对,训练集需要转换等待完成。 用训练集训练模型,填写训练模型的信息(spark-13B),训练时长24.37秒,微调方式LoRA,轮次5轮,。 4.测试环节 模型训练完成,需要把训练完的模型发布成服务,才可以测试 在星火大模型驱动阅读理解题库构建挑战赛的页面内提交成绩。生成分数有点慢,最后得分:29.47917