MMLU

2个月前发布 17,320 19 0

大规模多任务语言理解基准

收录时间:
2026-03-08

MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

数据统计

相关导航

19 条评论

  • 阳光大男孩
    阳光大男孩 读者

    数学这块真能测出模型理解力?还是单纯考计算?

    中国北京
    回复
  • 碧落使
    碧落使 读者

    界面能不能调暗一点,太亮了眼睛疼

    中国上海
    回复
  • 冥界信使
    冥界信使 读者

    刚试了下,法律部分连蒙带猜,答案都看不懂

    日本
    回复
  • 奶味小团
    奶味小团 读者

    英文题目对非英语母语的模型不太公平吧

    韩国
    回复
  • 白露成霜
    白露成霜 读者

    感觉这测评就是给大厂秀肌肉用的,普通人谁关心这个

    中国
    回复
  • 金牛座的坚定
    金牛座的坚定 读者

    题目类型多到离谱,像在考百科全书

    中国山东
    回复
  • Azure Dragon
    Azure Dragon 读者

    之前跑过一个模型,数学部分直接崩了,笑死

    中国辽宁
    回复
  • 暗影信标
    暗影信标 游客

    能不能出个简化版?57项任务太劝退了

    印度
    回复
  • 绣楼残梦
    绣楼残梦 游客

    历史题占比是不是太高了点,又不是考文科生

    日本
    回复