Datawhale AI夏令营
Task2 让大模型理解表格数据
-
数据质量
- 数据格式统一化处理:原始数据中时间格式可能不统一,需要进行标准化处理,便于后续的时间计算和推理。
- 缺失值处理策略:数据中可能存在空值,需要定义合适的填充或处理策略。
- 字段间关系分析:理解各字段之间的逻辑关系,例如“车次”与“检票口”、“站台”的对应关系,以及“到点”、“开点”与“停留时长”的计算关系。
- 数据清洗和标准化:确保数据质量,移除异常值或不一致的数据。
-
模型训练能力
- 编程生成问题(确保问题正确性):模型自问自答缺少正确性和可靠性,需要基于数据和不同方法设计确定性问题,保证模型的训练
-
- 使用更强大的大模型(教师模型)生成答案(确保答案质量) :对于生成的问题,将其输入给一个能力更强教师模型来对设计的问题生成答案。由于教师模型能力更强,它生成答案的准确性会更高。但是强大的大模型训练的贵!需要的资源更多!因此也需要小模型的存在
- 构建SFT数据集:将编程生成的“正确问题”和教师模型生成的“高质量答案”配对,形成
{"instruction": "问题", "output": "答案"}格式的SFT(Supervised Fine-Tuning)数据集。
- 微调目标模型(学生模型) :使用SFT数据集来微调我们的目标模型(学生模型)。让学生模型学习如何从结构化数据中提取信息并生成准确的答案
过程中问题
- 对调用大模型代码的不熟悉,需要根据不同API手册进行阅读来开始训练
- 问题的设计,需要更有针对性和通用性,避免设计问题的重复性