MMLU

1天前发布 1,025 11 0

大规模多任务语言理解基准

收录时间:
2026-03-08

MMLU 全称 Massive Multitask Language Understanding,是一种针对大模型的语言理解能力的测评,是目前最著名的大模型语义理解测评之一,由UC Berkeley大学的研究人员在2020年9月推出。该测试涵盖57项任务,包括初等数学、美国历史、计算机科学、法律等。任务涵盖的知识很广泛,语言是英文,用以评测大模型基本的知识覆盖范围和理解能力。

数据统计

相关导航

11 条评论

  • 秋日童话
    秋日童话 游客

    测评题目太杂,刷到数学都头大。

    中国江苏
    回复
  • 糖霜兔叽
    糖霜兔叽 读者

    这套题库感觉挺吓人,尤其法律那块。

    韩国
    回复
  • 阴阳和
    阴阳和 游客

    界面配色有点刺眼,眼睛受不了 😫

    中国河北
    回复
  • CenterOfAttention
    CenterOfAttention 读者

    功能倒是全,速度慢得像龟速。

    中国重庆
    回复
  • 章鱼爪爪
    章鱼爪爪 读者

    我刚用了大模型,结果分数意外低。

    中国上海
    回复
  • 量子之痕
    量子之痕 读者

    建议加点中文任务,太偏英文。

    中国湖南
    回复
  • 秃头警告
    秃头警告 读者

    这测评到底想干嘛?感觉像秀技术。

    中国台湾
    回复
  • 玄冥夜行
    玄冥夜行 读者

    我觉得题目选取有点偏科,数学和历史占比太高,想要更均衡点。

    中国北京
    回复
  • 寒尸守夜
    寒尸守夜 读者

    界面按钮排布有点乱,用起来总找不到对的入口,体验感一般,建议重新布局,真的挺烦。

    中国陕西
    回复
  • HotdogHavoc
    HotdogHavoc 读者

    我之前也用过类似测评,结果总是被数学卡住,后来换了别的模型才稍微好一点,真是太挑剔了。

    中国上海
    回复