大模型评估框架
OpenCompass模型评估 https://github.com/open-compass/opencompass/blob/main/README_zh-CN.md
OpenCompass
OpenCompass是一个开源项目,旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。
生成式大模型的评估指标
- 核心评估指标
OpenCompass支持以下主要评估指标,覆盖生成式大模型的多样化需求:
准确率(Accuracy): 用于选择题或分类任务,通过比对生成结果与标准答案计算正确率。在OpenCompass中通过metruc=accuracy配置。
困惑度(Perplexity): 衡量模型对候选答案的预测能力,适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)
生成质量(GEN): 通过文本生成结果提取答案,需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则。
ROUGE/LCS: 用于文本生成任务的相似度评估,需安装rouge==1.0.1依赖,并在数据配置中设置metric=rouge。
条件对数概率(CLP): 结合上下文计算答案的条件概率,适用于复杂推理任务,需在模型配置中启用use_logprob=True。
支持的开源评估数据集及使用差异
主流开源数据集
OpenCompass内置超过70个数据集,覆盖五大能力维度:
知识类 - C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。
推理类: GSM8K(数学推理)、BBH(复杂推理链)。
语言类: CLUE(中文理解)、AFQMC(语义相似度)。
代码类: HumanEval(代码生成)、MBPP(编程问题)。
多模态类: MMBench(图像理解)、SEED-Bench(多模态问答)。
数据集区别于选择
评估范式差异
_gen后缀数据集: 生成式评估,需后处理提取答案(如ceval_gen)。
_ppl后缀数据集: 困惑度评估,直接比对选项概率(如ceval_ppl)。
领域覆盖:
C-Eval: 侧重中文STEM和社会科学知识,包含1.3万道选择题
LawBench: 法律领域专项评估,需额外克隆仓库并配置路径。
