LangChain
开发由语言模型驱动的应用程序的框架
CMMLU是综合性的中文评估基准,专门用在评估语言模型在中文语境下的知识和推理能力,涵盖从基础学科到高级专业水平的67个主题。包括需要计算和推理的自然科学,需要知识的人文科学和社会科学,及需要生活常识的中国驾驶规则等。CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。CMMLU提供丰富的测试数据和排行榜,支持多种评估方式,如five-shot和zero-shot测试,是衡量中文语言模型性能的重要工具。

data目录中找到开发和测试数据集。transformers、datasets等。git clone https://github.com/haonan-li/CMMLU.git
cd CMMLU
src/mp_utils目录中,使用提供的脚本对数据进行预处理,生成适合模型输入的格式。
python src/mp_utils/preprocess.py
script目录中,运行测试脚本,评估模型在不同任务上的表现。python script/evaluate.py --model <model_name> --data_path <data_path>
haonan.li@librai.tech),等待验证后更新到排行榜。



这基准测出来的分数,感觉比官方榜单高点。
确实,我也发现分数虚高,不知道是不是测试方法有问题
界面配色有点刺眼,眼睛都要炸了。
这配色看久了眼睛疼,能不能加个夜间模式?
第一次跑评测,脚本卡了一会儿。
标题党,介绍说啥都有,实际只给了链接。
预处理脚本能加个中文分词选项,还能自定义过滤噪声,这样用起来更顺手。
zero-shot模式下,这模型还能答对医学题吗?
跑完后日志全是 warning,心里直打鼓。
看到那些warning我也慌,还好最后结果正常
排行榜更新太慢,感觉跟不上新模型。
数据目录结构清晰,但文档排版混乱,找例子不太顺。
我之前用过类似基准,CMMLU的题目覆盖面真的广,尤其人文那块细到省市,测出来的差异让我对模型调参有了新方向 😂