书生大模型实战营第四期基础岛-OpenCompass评测书生大模型实践
相关文档: github.com/InternLM/Tu…
闯关任务
评测API模型
配置模型和数据集
这样配置数据集——使用了CMMLU Benchmark的每个子数据集的1个样本进行测评。
运行
python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug
评测本地模型
下好相关配置环境之后,加载本地模型进行评测
修改相关py文件
运行
python tools/list_configs.py internlm ceval 可以列出所有跟InternLM以及C-Eval相关的配置
运行以下命令评测InternLM2-Chat-1.8B模型在C-Eval数据集上面的表现。
python run.py --datasets ceval_gen --models hf_internlm2_5_1_8b_chat --debug