[笔记][大模型学习]19-OpenCompass大模型评估

55 阅读2分钟

量化

量化的逻辑,搞个函数,除以一个数,加一个数。

数据范围比较大,控制到一个范围内。 低精度处理。

量化和量化之后的结果,之间的误差不能过大。

每层的量化,都会引入量化误差,如果多层之后,误差太大,因此需要校准。

8位的一般不要校准,误差不大。4位的需要校准。

量化跟训练的数据集没啥关系。

OpenCompass模型评估 大模型评估框架

在国内的地位还是比较高的

客观评估: Open Compass 公开数据集评估模型 Open Compass 自定义数据集评估模型

Deepseek 性能优化,蒸馏。V100显卡。矩阵推理运算。

国内芯片公司:摩尔线程。

通用模型就会做得性能越小,越来越好。特定领域细分。 细分领域。 未来大模型方向:

  • 针对特定领域精度提高。
  • 大公司的通用模型,越来越大,更加通用,可能最后只剩下1,2家公司。
  • 细分领域,每家互联网公司业务都有AI。

评估

  • 模型为什么要做评估
  • 现阶段的主流评估方法
  • OpenCompass怎么评估

整体概括:

本算法库的主要评测对象为大语言模型和多模态大模型。

基座模型:一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型。往往具有强大的文字续写能力。 对话模型:在基座模型基础上,进过指令微调或人类偏好对齐获得的模型,能理解人类指令,具有较强的对话能力。

评测方法

  • 客观评测

    • 判别式评测
    • 生成式评测
  • 主观评测

初步操作看readme文档,不要看网站上的文档

更多细节,去网站上的文档上看

大模型安全问题。最好用合法途径的安全问题。