CMMLU

2个月前发布 15,505 19 0

一个综合性的大模型中文评估基准

收录时间：

2026-03-08

打开网站手机查看

CMMLU

打开网站

CMMLU是什么

CMMLU是综合性的中文评估基准，专门用在评估语言模型在中文语境下的知识和推理能力，涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学，需要知识的人文科学和社会科学，及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜，支持多种评估方式，如five-shot和zero-shot测试，是衡量中文语言模型性能的重要工具。

CMMLU的主要功能

排行榜：展示不同语言模型在five-shot和zero-shot测试下的表现，帮助比较模型性能。
数据集：提供开发和测试数据，支持快速使用和评估。
预处理代码：提供提示生成方法，方便模型训练和测试。
评估工具：支持多种评估方式，便于研究者和开发者测试模型能力。

如何使用CMMLU

获取数据集：
- 从GitHub下载：访问 CMMLU GitHub页面：https://github.com/haonan-li/CMMLU/，在data目录中找到开发和测试数据集。
- 通过Hugging Face获取：访问Hugging Face平台：https://huggingface.co/datasets/haonan-li/cmmlu，直接加载CMMLU数据集。
准备测试环境：
- 安装依赖：确保安装了必要的Python库，如transformers、datasets等。
- 克隆代码库：克隆CMMLU的GitHub仓库，获取测试代码和预处理工具。

git clone https://github.com/haonan-li/CMMLU.git
cd CMMLU

预处理数据：在src/mp_utils目录中，使用提供的脚本对数据进行预处理，生成适合模型输入的格式。

python src/mp_utils/preprocess.py

运行评估代码
- 选择模型：根据需要评估的语言模型，加载模型和tokenizer。
- 运行测试脚本：在script目录中，运行测试脚本，评估模型在不同任务上的表现。

python script/evaluate.py --model <model_name> --data_path <data_path>

提交测试结果：
- 开源模型：直接提交拉取请求（PR），更新测试代码和结果。
- 未开放模型：将测试代码和结果发送到指定邮箱（如haonan.li@librai.tech），等待验证后更新到排行榜。
分析结果：在GitHub页面的排行榜部分，查看模型在不同任务上的表现，分析模型的优缺点。

CMMLU的应用场景

语言模型性能评估：用在测试和比较语言模型在中文多任务场景下的知识和推理能力，帮助优化模型架构。
教育领域的智能辅导：开发智能辅导系统，为学生提供多学科的练习和学习建议，提升学习效果。
智能客服优化：评估模型在特定领域的知识理解能力，优化智能客服系统，提高客户服务质量。
文化知识传播：用CMMLU的数据集开发文化问答系统，传播中国文化知识，促进文化传承。
医疗健康知识评估：评估语言模型在医学领域的知识理解能力，辅助开发医疗咨询工具，提供健康建议。

数据统计

19 条评论

雨滴小屋游客

这基准测出来的分数，感觉比官方榜单高点。

2个月前中国福建

回复
- 迷糊的小浣熊游客
  
  确实，我也发现分数虚高，不知道是不是测试方法有问题
  
  2个月前中国浙江@ 雨滴小屋
  
  回复
檀木读者

界面配色有点刺眼，眼睛都要炸了。

2个月前中国浙江

回复
- 星辰捕梦者读者
  
  这配色看久了眼睛疼，能不能加个夜间模式？
  
  2个月前日本@ 檀木
  
  回复
风一般的男子读者

第一次跑评测，脚本卡了一会儿。

2个月前中国山东

回复
夜昙一现读者

标题党，介绍说啥都有，实际只给了链接。

2个月前泰国

回复
神秘的玄狐游客

预处理脚本能加个中文分词选项，还能自定义过滤噪声，这样用起来更顺手。

2个月前中国湖南

回复
幽谷兰香远读者

zero-shot模式下，这模型还能答对医学题吗？

2个月前中国辽宁

回复
节奏漫步读者

跑完后日志全是 warning，心里直打鼓。

2个月前中国北京

回复
- 孤影魔尊读者
  
  看到那些warning我也慌，还好最后结果正常
  
  2个月前日本@ 节奏漫步
  
  回复
水月镜游客

排行榜更新太慢，感觉跟不上新模型。

2个月前中国湖北

回复
奶味小团读者

数据目录结构清晰，但文档排版混乱，找例子不太顺。

2个月前中国湖北

回复
量子之痕读者

我之前用过类似基准，CMMLU的题目覆盖面真的广，尤其人文那块细到省市，测出来的差异让我对模型调参有了新方向 😂

2个月前泰国

回复

CMMLU

CMMLU是什么

CMMLU的主要功能

如何使用CMMLU

CMMLU的应用场景

数据统计

相关导航

LangChain

Duo Chat

小马算力

CodeBuddy IDE

新Clawdbot

Hoarder

Exa AI

Fast3D

19 条评论