MMLU

2个月前发布 17,030 19 0

大规模多任务语言理解基准

收录时间：

2026-03-08

打开网站手机查看

MMLU

打开网站

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。

数据统计

19 条评论

秋日童话游客

测评题目太杂，刷到数学都头大。

2个月前中国江苏

回复
糖霜兔叽读者

这套题库感觉挺吓人，尤其法律那块。

2个月前韩国

回复
阴阳和游客

界面配色有点刺眼，眼睛受不了 😫

2个月前中国河北

回复
CenterOfAttention 读者

功能倒是全，速度慢得像龟速。

2个月前中国重庆

回复
章鱼爪爪读者

我刚用了大模型，结果分数意外低。

2个月前中国上海

回复
量子之痕读者

建议加点中文任务，太偏英文。

2个月前中国湖南

回复
秃头警告读者

这测评到底想干嘛？感觉像秀技术。

2个月前中国台湾

回复
玄冥夜行读者

我觉得题目选取有点偏科，数学和历史占比太高，想要更均衡点。

2个月前中国北京

回复
寒尸守夜读者

界面按钮排布有点乱，用起来总找不到对的入口，体验感一般，建议重新布局，真的挺烦。

2个月前中国陕西

回复
HotdogHavoc 读者

我之前也用过类似测评，结果总是被数学卡住，后来换了别的模型才稍微好一点，真是太挑剔了。

2个月前中国上海

回复

MMLU

数据统计

相关导航

WisPaper

Zapier AI

OpenBMB

Fig

Cohere

ChatGPT Shortcut

Fairies

Warp Code

19 条评论