大模型评估框架

OpenCompass

OpenCompass是一个开源项目，旨在为机器学习和自然语言处理领域提供多功能、易于使用的工具和框架。其中包含的多个开源模型和开源数据集(BenchMarks),方便进行模型的效果评测。

准确率(Accuracy): 用于选择题或分类任务，通过比对生成结果与标准答案计算正确率。在OpenCompass中通过metruc=accuracy配置。

困惑度(Perplexity): 衡量模型对候选答案的预测能力，适用于选择题评估。需使用ppl类型的数据集配置(如ceval_ppl)

生成质量(GEN): 通过文本生成结果提取答案，需结合后处理脚本解析输出。使用gen类型的数据集(如ceval_gen),配置metric=gen并指定后处理规则。

ROUGE/LCS: 用于文本生成任务的相似度评估，需安装rouge==1.0.1依赖，并在数据配置中设置metric=rouge。

条件对数概率(CLP): 结合上下文计算答案的条件概率，适用于复杂推理任务，需在模型配置中启用use_logprob=True。

主流开源数据集
OpenCompass内置超过70个数据集，覆盖五大能力维度:

知识类 - C-Eval(中文考试题)、CMMLU(多语言知识问答)、MMLU(英文多选题)。

推理类: GSM8K(数学推理)、BBH(复杂推理链)。

语言类: CLUE(中文理解)、AFQMC(语义相似度)。

代码类: HumanEval(代码生成)、MBPP(编程问题)。

多模态类: MMBench(图像理解)、SEED-Bench(多模态问答)。

评估范式差异

_gen后缀数据集: 生成式评估，需后处理提取答案(如ceval_gen)。

_ppl后缀数据集: 困惑度评估，直接比对选项概率(如ceval_ppl)。

领域覆盖:

C-Eval: 侧重中文STEM和社会科学知识，包含1.3万道选择题

LawBench: 法律领域专项评估，需额外克隆仓库并配置路径。