书生大模型实战营第四期基础岛-OpenCompass评测书生大模型实践

172 阅读1分钟

书生大模型实战营第四期基础岛-OpenCompass评测书生大模型实践

相关文档: github.com/InternLM/Tu…

闯关任务

评测API模型

image.png

配置模型和数据集

image.png

image.png 这样配置数据集——使用了CMMLU Benchmark的每个子数据集的1个样本进行测评。

运行 python run.py --models puyu_api.py --datasets demo_cmmlu_chat_gen.py --debug

image.png

评测本地模型

下好相关配置环境之后,加载本地模型进行评测

修改相关py文件

image.png

运行 python tools/list_configs.py internlm ceval 可以列出所有跟InternLM以及C-Eval相关的配置

image.png

运行以下命令评测InternLM2-Chat-1.8B模型在C-Eval数据集上面的表现。

python run.py --datasets ceval_gen --models hf_internlm2_5_1_8b_chat --debug

image.png