MMLU

2个月前发布 18,015 19 0

大规模多任务语言理解基准

收录时间：

2026-03-08

打开网站手机查看

MMLU

打开网站

MMLU 全称 Massive Multitask Language Understanding，是一种针对大模型的语言理解能力的测评，是目前最著名的大模型语义理解测评之一，由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务，包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛，语言是英文，用以评测大模型基本的知识覆盖范围和理解能力。

数据统计

19 条评论

阳光大男孩读者

数学这块真能测出模型理解力？还是单纯考计算？

2个月前中国北京

回复
碧落使读者

界面能不能调暗一点，太亮了眼睛疼

2个月前中国上海

回复
冥界信使读者

刚试了下，法律部分连蒙带猜，答案都看不懂

2个月前日本

回复
奶味小团读者

英文题目对非英语母语的模型不太公平吧

2个月前韩国

回复
白露成霜读者

感觉这测评就是给大厂秀肌肉用的，普通人谁关心这个

2个月前中国

回复
金牛座的坚定读者

题目类型多到离谱，像在考百科全书

2个月前中国山东

回复
Azure Dragon 读者

之前跑过一个模型，数学部分直接崩了，笑死

2个月前中国辽宁

回复
暗影信标游客

能不能出个简化版？57项任务太劝退了

2个月前印度

回复
绣楼残梦游客

历史题占比是不是太高了点，又不是考文科生

2个月前日本

回复

MMLU

数据统计

相关导航

Firebase Studio

TRAE

炉米Lumi

Warp Code

幂简AI提示词商城

FinGenius

Apache MXNet

金灵AI

19 条评论