Datawhale AI夏令营Datawhale与科大讯飞合作赛事与夏令营教学内容分享，让大模型能够理解数据，学习如何设

Task2 让大模型理解表格数据

数据质量
1. 数据格式统一化处理：原始数据中时间格式可能不统一，需要进行标准化处理，便于后续的时间计算和推理。
2. 缺失值处理策略：数据中可能存在空值，需要定义合适的填充或处理策略。
3. 字段间关系分析：理解各字段之间的逻辑关系，例如“车次”与“检票口”、“站台”的对应关系，以及“到点”、“开点”与“停留时长”的计算关系。
4. 数据清洗和标准化：确保数据质量，移除异常值或不一致的数据。
模型训练能力
1. 编程生成问题（确保问题正确性）：模型自问自答缺少正确性和可靠性，需要基于数据和不同方法设计确定性问题，保证模型的训练
2. 1. 使用更强大的大模型（教师模型）生成答案（确保答案质量） ：对于生成的问题，将其输入给一个能力更强教师模型来对设计的问题生成答案。由于教师模型能力更强，它生成答案的准确性会更高。但是强大的大模型训练的贵！需要的资源更多！因此也需要小模型的存在
3. 构建SFT数据集：将编程生成的“正确问题”和教师模型生成的“高质量答案”配对，形成{"instruction": "问题", "output": "答案"}格式的SFT（Supervised Fine-Tuning）数据集。
4. 微调目标模型（学生模型） ：使用SFT数据集来微调我们的目标模型（学生模型）。让学生模型学习如何从结构化数据中提取信息并生成准确的答案

过程中问题

对调用大模型代码的不熟悉，需要根据不同API手册进行阅读来开始训练
问题的设计，需要更有针对性和通用性，避免设计问题的重复性

Datawhale AI夏令营

Task2 让大模型理解表格数据

数据质量

模型训练能力

过程中问题