书生大模型实战营第四期基础岛-OpenCompass评测书生大模型实践书生大模型实战营第四期基础岛-OpenCompas

书生大模型实战营第四期基础岛-OpenCompass评测书生大模型实践

配置模型和数据集

这样配置数据集——使用了CMMLU Benchmark的每个子数据集的1个样本进行测评。

运行 python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug

下好相关配置环境之后，加载本地模型进行评测

修改相关py文件

运行 python tools/list_configs.py internlm ceval 可以列出所有跟InternLM以及C-Eval相关的配置

运行以下命令评测InternLM2-Chat-1.8B模型在C-Eval数据集上面的表现。

python run.py --datasets ceval_gen --models hf_internlm2_5_1_8b_chat --debug